Cours de Statistique
Transcription
Cours de Statistique
Université Joseph Fourier, Grenoble I Licence Sciences et Technologies 2e année STA230 : Méthodes Statistiques pour la Biologie Cours de Statistique http ://ljk.imag.fr/membres/Bernard.Ycart/STA230/ Table des matières 1 Données et Modèles 1.1 Données unidimensionnelles . . . . . . . . . . . . . 1.1.1 Échantillons . . . . . . . . . . . . . . . . . . 1.1.2 Moyenne empirique . . . . . . . . . . . . . . 1.1.3 Variance empirique . . . . . . . . . . . . . . 1.2 Expériences aléatoires . . . . . . . . . . . . . . . . 1.2.1 Événements . . . . . . . . . . . . . . . . . . 1.2.2 Axiomes des probabilités . . . . . . . . . . . 1.2.3 Probabilités conditionnelles . . . . . . . . . 1.3 Variables aléatoires . . . . . . . . . . . . . . . . . . 1.3.1 Loi d’une variable aléatoire . . . . . . . . . 1.3.2 Variables aléatoires discrètes . . . . . . . . . 1.3.3 Variables aléatoires continues . . . . . . . . 1.3.4 Fonction de répartition et fonction quantile . 1.3.5 Espérance et variance . . . . . . . . . . . . . 1.3.6 Théorèmes limites . . . . . . . . . . . . . . . 1.4 Distribution empirique . . . . . . . . . . . . . . . . 1.4.1 Statistique et probabilités . . . . . . . . . . 1.4.2 Quantiles . . . . . . . . . . . . . . . . . . . 1.4.3 Modèles probabilistes . . . . . . . . . . . . . 2 Estimation paramétrique 2.1 Estimation ponctuelle . . . . . . . 2.1.1 Modèles paramétrés . . . . 2.1.2 Estimateurs et estimations 2.1.3 Qualités d’un estimateur . 2.1.4 Exemples d’estimateurs . . 2.2 Intervalles de confiance . . . . . . 2.2.1 Intervalles de dispersion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 3 3 6 7 9 9 10 13 15 15 16 19 20 24 26 28 28 30 32 . . . . . . . 36 36 36 38 39 42 45 45 Cours de Statistique STA230 2.2.2 2.2.3 2.2.4 UJF Grenoble Définitions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Echantillons gaussiens . . . . . . . . . . . . . . . . . . . . . . . Normalité asymptotique . . . . . . . . . . . . . . . . . . . . . . 3 Tests statistiques 3.1 Statistiques de test . . . . . . . . . . . . . . . . . 3.1.1 Modèles probabilistes réfutables . . . . . . 3.1.2 Règles de décision . . . . . . . . . . . . . . 3.1.3 Seuil et p-valeur . . . . . . . . . . . . . . . 3.1.4 Risques et puissance . . . . . . . . . . . . 3.2 Tests paramétriques classiques . . . . . . . . . . . 3.2.1 Échantillons gaussiens . . . . . . . . . . . 3.2.2 Test sur la moyenne d’un grand échantillon 3.2.3 Test sur la valeur d’un quantile . . . . . . 3.2.4 Échantillons appariés . . . . . . . . . . . . 3.3 Comparaison d’échantillons indépendants . . . . . 3.3.1 Test de Fisher . . . . . . . . . . . . . . . . 3.3.2 Test de Student . . . . . . . . . . . . . . . 3.3.3 Normalité asymptotique . . . . . . . . . . 3.4 Test d’ajustement . . . . . . . . . . . . . . . . . . 3.4.1 Distance du khi-deux . . . . . . . . . . . . 3.4.2 Pratique du test . . . . . . . . . . . . . . . 3.5 Test d’indépendance . . . . . . . . . . . . . . . . 3.5.1 Tableau de contingence . . . . . . . . . . . 3.5.2 Khi-deux de contingence . . . . . . . . . . 4 Régression linéaire 4.1 Régression linéaire simple . . . . . . . . . . . 4.1.1 Représentations graphiques . . . . . . 4.1.2 Covariance . . . . . . . . . . . . . . . . 4.1.3 Droite de régression linéaire . . . . . . 4.2 Modèle linéaire . . . . . . . . . . . . . . . . . 4.2.1 Intervalles de confiance et de prédiction 4.2.2 Test de pertinence de la régression . . 4.2.3 Étude des résidus . . . . . . . . . . . . 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48 51 53 . . . . . . . . . . . . . . . . . . . . 56 56 56 58 61 63 64 64 65 66 67 68 68 69 70 70 70 72 74 74 75 . . . . . . . . 78 78 78 79 81 85 85 88 89 Cours de Statistique STA230 1 UJF Grenoble Données et Modèles Ce chapitre présente le vocabulaire de la statistique descriptive sur les données unidimensionelles. La notion de modèle que l’on peut ajuster à un caractère statistique est assez subtile, et de multiples exemples seront fournis pour aider à sa compréhension. Elle est pourtant essentielle, même si nous ne mettrons l’accent que sur quelques modèles de base. Les deux plus importants sont le modèle binomial et le modèle gaussien, qui devront absolument être compris. 1.1 1.1.1 Données unidimensionnelles Échantillons À la base de toute étude statistique, il y a une population, formée d’individus sur lesquels on observe des caractères. Pour fixer les idées, il est plus facile de penser en termes de population humaine. Les individus sont des personnes, et les caractères observés peuvent être morphologiques (taille, poids, couleur des yeux), physiologiques (groupe sanguin, numération globulaire, taux de cholestérol) ou psychologiques (réactions à des tests ou réponses à une enquête d’opinion). Même si nous choisirons prioritairement nos exemples dans les caractères humains, il faut garder à l’esprit des notions de population et de caractère plus générales. Voici quelques exemples. Population Eléments chimiques Galaxies Etoiles Chromosomes Gènes Villes Pays Films Mois de l’année Caractère Nombre d’isotopes Nombre d’étoiles Magnitude Nombre de gènes Nombre de bases protéiques Taux d’imposition Produit intérieur brut Recettes Montant des exportations Un caractère est dit : – qualitatif, si les valeurs ne peuvent pas être ordonnées (groupe sanguin, couleur des yeux, vote pour un candidat). – ordinal, si les valeurs peuvent seulement être ordonnées : leurs différences ne sont pas interprétables (opinions exprimées sur une échelle de valeurs) – quantitatif, quand les valeurs sont numériques (mesures physiques, physiologiques, économiques). Les valeurs que peut prendre un caractère s’appellent les modalités. Pour des raisons de facilité de traitement informatique ou mathématique, on cherche à se ramener à des caractères quantitatifs par un codage. Si le caractère initial est qualitatif, le codage sera souvent binaire. Le cas le plus simple est celui d’un référendum, où 3 Cours de Statistique STA230 UJF Grenoble il n’y a que deux modalités codées 0 et 1. Pour un nombre quelconque m de modalités, on pourra les coder par un vecteur de m booléens : si la valeur observée sur un individu est l, le vecteur associé à cet individu a toutes ses coordonnées nulles sauf la l-ième qui vaut 1. Dans le cas des caractères ordinaux, on effectue souvent le codage sur les premiers entiers. Il faut se souvenir que le codage est arbitraire et que les résultats numériques que l’on obtient après codage peuvent dépendre de celui-ci. Des techniques spécifiques permettent de traiter plus particulièrement les caractères qualitatifs et ordinaux. Nous nous limiterons ici pour l’essentiel aux caractères quantitatifs. La statistique intervient quand il est impossible ou inutile d’observer un caractère sur l’ensemble de la population. On l’observe alors sur une sous-population de taille réduite, en espérant tirer de l’observation des conclusions généralisables à toute la population. Si les données d’un caractère quantitatif sont recueillies sur n individus, le résultat est un n-uplet de nombres, entiers ou décimaux, (x1 , . . . , xn ), que l’on appelle échantillon ou série statistique, de taille n. On réserve plutôt le terme d’échantillon au résultat de n expériences menées indépendamment les unes des autres, et dans des conditions identiques (lancers de dés, mesure du poids de n nouveaux-nés,. . . ). On appellera plutôt série statistique le résultat de n expériences qui ne sont pas interchangeables. Le cas le plus fréquent est celui où la population est constituée d’instants successifs (relevés quotidiens de températures, chiffres mensuels du chômage,. . . ). On parle alors de série chronologique (figure 1). Milliers de cas 900 + 800 700 + 600 + 500 + + 400 + + + + + 300 + + ++ + ++ 200 + 100 0 . 0 + ++ + + + + + ++++ + + ++ ++ +++ +++++++ ++++++ + + + + + + + + ++++++++++++ +++++++++++++++ + ++++ + +++++++++++++ ++++++ 52 + + + + + ++ + + + + + + ++ ++ +++++++++ + ++++++ + ++++++++++++++++++++++++ 104 156 + + + + + + ++ + + ++ ++++++++++++++++++++++++++++ + +++ ++++ +++ + ++ +++++++++++++ +++++++++++++++++++++++ 208 Semaines 260 Fig. 1 – Série chronologique : cas de grippe en France par semaine sur 5 ans. On distingue souvent les caractères discrets (ceux qui ne prennent que peu de modalités distinctes) des caractères continus (pour lesquels toutes les valeurs observées sont a priori différentes). La frontière entre continu et discret est beaucoup moins claire en pratique qu’en théorie. Tout recueil de données se fait avec une certaine précision, et dans une certaine unité. Si une taille est mesurée avec une précision de l’ordre du cen4 Cours de Statistique STA230 UJF Grenoble timètre, tout chiffre correspondant à une quantité inférieure au centimètre ne contient aucune information et doit être éliminé. Cela signifie que la taille en centimètres est une valeur entière, donc un caractère discret, même si on le modélise par une loi normale qui est une loi continue. D’autre part, différentes techniques statistiques (histogrammes, distance du chi-deux) imposent de regrouper les données en classes, ce qui revient à les rendre discrètes, les nouvelles modalités étant les différentes classes. Tailles 130 + + 128 + 126 + 124 + 122 + + + + + + + 120 ++ + + + + + + + + + ++ ++ + + + + 116 + + + + + + + + + + + + + + + + + + + + ++ + + + + + + + + + + + + + + + ++ + 110 108 + + + + + + + + + 112 + + + + + + + + + 118 114 + + + + + + + + 106 + 104 + 102 Individus + 100 0 10 20 30 40 50 60 70 80 90 100 Fig. 2 – Echantillon de 100 tailles d’enfants de 6 ans, en centimètres. Une fois recueilli, l’échantillon (x1 , . . . , xn ) se présente comme une liste de nombres peu lisible, dont la principale caractéristique est une plus ou moins grande variabilité. Le traitement statistique consiste à étudier cette variabilité, pour en extraire l’information qu’elle contient, à savoir ce qui est généralisable à l’ensemble de la population. Les techniques de statistique descriptive auront pour but de compresser l’échantillon, de le résumer par des quantités calculées et des représentations graphiques, afin d’extraire l’information. On ne traite pas un échantillon sans avoir une question précise à lui poser. Étant donné un échantillon de tailles de filles de 18 ans, le traitement ne sera pas le même selon que l’on sera un nutritionniste qui cherche à étudier l’influence du régime alimentaire sur la croissance, ou un fabriquant de vêtements qui fait une étude de marché. Ne confondez pas : • les statistiques comme ensemble de données chiffrées sur un phénomène variable (les statistiques du commerce extérieur, du chômage). • la statistique en tant que discipline scientifique dont le but est d’extraire de l’information d’un échantillon en vue d’une prédiction ou d’une décision. • une statistique calculée à partir d’un échantillon comme résumé de ses propriétés (moyenne, variance. . . ). 5 Cours de Statistique STA230 1.1.2 UJF Grenoble Moyenne empirique La statistique la plus évidente à calculer sur un échantillon numérique, celle dont l’interprétation est la plus intuitive, est la moyenne empirique. Définition 1. La moyenne empirique d’un échantillon est la somme de ses éléments divisée par leur nombre. Si l’échantillon est noté (x1 , . . . , xn ), sa moyenne empirique est : 1 x = (x1 + · · · + xn ) . n La moyenne est donc le centre de gravité des données, affectées de coefficients égaux pour chaque individu. Elle peut être considérée comme une valeur centrale, même si elle n’est pas égale à une des modalités. Tailles 130 + + 128 + 126 + 124 + + + + + 122 + + + + 120 ++ + + + + + + + + + ++ ++ + + + + 116 + + + + + + + + + + + + + + ++ + + + + + + ++ + + + + + + + + 110 + + + + + + + 108 + + + + + + + + + + + + + + + 112 + + + + 118 114 + + + + + + + 106 + 104 + 102 Individus + 100 0 10 20 30 40 50 60 70 80 90 100 Fig. 3 – Moyenne d’un échantillon de 100 tailles d’enfants de 6 ans La moyenne est associative. Si on réunit deux échantillons, de tailles respectives nx et ny , de moyennes respectives x et y, alors la moyenne du nouvel échantillon sera (nx x + ny y)/(nx + ny ). Si (x1 , . . . , xn ) est un échantillon et si on pose pour tout i = 1, . . . , n, yi = axi + b, où a et b sont deux constantes, alors la moyenne empirique de l’échantillon (y1 , . . . , yn ) est y = ax + b. En particulier, si a = 1 et b = −x, le nouvel échantillon a une moyenne nulle. Centrer les données c’est leur retrancher la moyenne empirique de manière à la ramener à 0. Un cas particulier important est celui des données binaires. On est souvent amené à construire un échantillon binaire à partir d’un échantillon numérique, ne serait-ce que pour le regroupement en classes. Soit A un sous ensemble de R (un intervalle dans le cas d’une classe). Notons IA (x) sa fonction indicatrice qui vaut 1 si x ∈ A, 0 sinon. Si (x1 , . . . , xn ) est un échantillon à valeurs réelles, alors (IA (x1 ), . . . , IA (xn )) est un 6 Cours de Statistique STA230 UJF Grenoble échantillon binaire, dont la moyenne empirique est appelée la fréquence empirique de A. C’est simplement la proportion des valeurs de (x1 , . . . , xn ) qui appartiennent à A. Un des inconvénients de la moyenne empirique, vue comme valeur centrale d’un échantillon, est d’être sensible aux valeurs extrêmes. Une valeur manifestement très différente des autres est souvent qualifiée de valeur aberrante. Qu’elle soit ou non le résultat d’une erreur dans le recueil ou la transcription, on ne peut pas la considérer comme représentative. Supposons que sur un échantillon de 10 valeurs, toutes soient de l’ordre de 10, sauf une, qui est de l’ordre de 1000. La moyenne empirique sera de l’ordre de 100, c’est-à-dire très éloignée de la plupart des valeurs de l’échantillon. Pour palier cet inconvénient, on peut décider de ne pas tenir compte des valeurs extrêmes dans le calcul de la moyenne. On obtient alors une moyenne élaguée. 1.1.3 Variance empirique Les notions de variance et d’écart-type servent à quantifier la variabilité d’un échantillon en mesurant sa dispersion autour de la moyenne. La définition est la suivante : Définition 2. Soit (x1 , . . . , xn ) un échantillon et x sa moyenne empirique. On appelle variance de l’échantillon la quantité, notée s2 , définie par : s2 = n 1X (xi − x)2 . n i=1 On appelle écart-type de l’échantillon la racine carrée de la variance. En d’autres termes, la variance est la moyenne des carrés de l’échantillon centré. L’avantage de l’écart-type sur la variance est qu’il s’exprime, comme la moyenne, dans la même unité que les données. On utilise parfois le coefficient de variation, qui est le rapport de l’écart-type sur la moyenne. Pour calculer la variance d’un échantillon, on dispose de deux formules qui donnent le même résultat. s 2 1 (x1 − x)2 + · · · + (xn − x)2 n 1 (x21 − 2x1 x + x2 ) + · · · + (x21 − 2x1 x + x2 ) n 2 1 2 (x1 + · · · + x2n ) − x(x1 + · · · + xn ) + x2 n n 1 2 (x + · · · + x2n ) − x2 n 1 = = = = Vous pouvez donc retenir que : La variance est la moyenne des carrés moins le carré de la moyenne. 7 Cours de Statistique STA230 UJF Grenoble Tailles 130 + + 128 + 126 + 124 + 122 + + + + + + + 120 ++ + + + + + + + + + ++ ++ + + + + 116 + + + + + + + + + + + + + + + ++ + + + + + + ++ + + + + + + + + + + + + + + + + 110 108 + + + + + + + + + + + + + 112 + + + + 118 114 + + + + + + + + 106 + 104 + 102 Individus + 100 0 10 20 30 40 50 60 70 80 90 100 Fig. 4 – Tailles d’enfants de 6 ans. La zone grisée correspond à la moyenne, plus ou moins un écart-type. Dans le cas particulier des données binaires, codées sur 0 et 1, la moyenne est le nombre de “1” divisé par le nombre total de données : c’est la fréquence empirique de 1. La variance n’apporte aucune information supplémentaire. En effet, si tous les xi valent 0 ou 1, alors x2i = xi et donc : s2 = x − x2 = x(1 − x) . Une fois la moyenne calculée, nous avons vu qu’on pouvait centrer les données pour se ramener à une moyenne nulle. La variance des données centrées est la même que celle de l’échantillon initial. Une fois cette variance calculée, on peut réduire les données centrées en les divisant par l’écart-type. On obtient ainsi un nouvel échantillon dont la moyenne est nulle et la variance égale à 1. On parle d’échantillon réduit. Remarquons que les données réduites sont des nombres sans unité. On peut donc comparer deux échantillons réduits même si les données initiales n’étaient pas exprimées dans la même unité. L’inconvénient de l’écart-type tel qu’il a été défini plus haut, est qu’il a tendance à sous-estimer légèrement l’écart des données par rapport à leur moyenne. La raison mathématique de ce défaut est liée à la notion de biais d’un estimateur. On peut en saisir la raison intuitive sur un exemple simple. Supposons que l’on joue trois fois à un jeu dont l’enjeu est 1 euro. Chaque résultat vaut donc +1 (gain) ou −1 (perte). Si le jeu est équitable, on s’attend à ce que la moyenne vaille 0 et l’écart-type 1. Or sur trois parties, les résultats possibles à l’ordre 8 Cours de Statistique STA230 UJF Grenoble près sont les suivants. (x1 , x2 , x3 ) x s2 (−1, −1, −1) −1 0 − 13 (−1, 1, 1) 1 3 8 9 8 9 (1, 1, 1) 1 0 (−1, −1, 1) En aucun cas l’écart-type empirique ne peut atteindre 1 ! Le moyen de corriger cette sous-estimation systématique est de multiplier la variance par n/(n−1), où n est la taille de l’échantillon. On parle alors de variance non biaisée. C’est la raison de la présence sur certaines calculatrices de deux touches de calcul de l’écart-type, une marquée σn q n . (notre s), l’autre σn−1 qui retourne s n−1 1.2 1.2.1 Expériences aléatoires Événements Convenons d’appeler expérience aléatoire une expérience dont on ne peut ou ne veut pas prévoir complètement le résultat. Autrement dit une expérience qui pourra donner des résultats différents si elle est répétée (apparemment dans les mêmes conditions). L’ensemble des résultats possibles d’une expérience aléatoire est en général codé de manière à n’en retenir que certains aspects. Jouer à pile ou face consiste lors du lancer d’une pièce à ne s’intéresser qu’à la face sur laquelle elle tombe en oubliant le nombre de rotations en l’air, le point de chute. . . On note Ω l’ensemble de tous les valeurs possibles que peut prendre ce codage. Les éléments de Ω sont les éventualités. Voici quelques exemples. Expérience Lancer d’une pièce Observer le spin d’une particule Relever l’état d’une case mémoire Interroger un électeur avant un référendum Lancer un dé Jouer à la roulette Compter les clients d’une file d’attente Observer une durée de fonctionnement Ω {Pile, Face} {+1, −1} {0, 1} {Oui, Non} {1, 2, . . . , 6} {0, 1, . . . , 36} N R+ Le codage en éventualités relève d’un choix de modélisation qui comporte un certain arbitraire. Si on joue à “pair ou impair” à la roulette, Ω = {0, P air, Impair} conviendra tout autant que Ω = {0, 1, . . . , 36}. Le nombre de clients dans une file d’attente à un instant donné ne peut pas être supérieur à la population de la terre. Aucune durée de fonctionnement sans panne n’a jamais dépassé quelques siècles. Plus généralement, toute grandeur observée peut être codée par les valeurs d’un ensemble fini (les 9 STA230 Cours de Statistique UJF Grenoble nombres représentables en machine), compte tenu de sa précision et de son étendue. Ici comme dans les autres domaines des mathématiques appliquées, l’infini ou le continu ne sont que des approximations destinées à simplifier le traitement mathématique. Des expériences aléatoires peuvent être simulées sur ordinateur, par l’appel de fonctions particulières, dites générateurs pseudo-aléatoire. Qu’il s’agisse d’un résultat de simulation ou de toute autre expérience, parler d’expérience aléatoire, c’est choisir de ne s’intéresser qu’aux résultats possibles, et oublier en fait les conditions de l’expérience. Si on maîtrise parfaitement la vitesse initiale de la pièce, la résistance de l’air et la hauteur par rapport au sol, alors le problème de savoir sur quelle face elle va tomber devient un problème de mécanique, que l’on peut résoudre au moins en théorie. Qu’il existe ou non des expériences dont le résultat soit parfaitement imprévisible est un problème de physique quantique ou de philosophie (Dieu joue-t-il aux dés ?), mais pas de probabilités. Le hasard au sens du probabiliste n’est qu’un expédient, un choix de modélisation qui consiste à recouvrir d’un voile pudique la complexité des phénomènes que l’on ne maîtrise pas, pour n’en retenir que certains aspects observables. Un événement est un fait dépendant du résultat d’une expérience aléatoire (ou plutôt de son codage en éventualités) dont on pourra dire à l’issue de l’expérience s’il est réalisé ou non. On peut donc l’assimiler à l’ensemble d’éventualités pour lesquelles il est réalisé, qui est un sous-ensemble de Ω. Evénement Le résultat du dé est pair A⊂Ω {2, 4, 6} La durée est inférieure à 100 heures [0, 100] Pour le codage {Pile,Face}, “la pièce tombe sur la tranche” n’est pas un événement, pas plus que “la personne interrogée n’a pas compris la question” pour un codage {Oui, Non} des réponses. Toutes les combinaisons logiques d’événements sont encore des événements. Si A est un événement, son contraire noté A en est un aussi. Si A et B sont des événements, “A et B”, noté A ∩ B, ainsi que “A ou B”, noté A ∪ B, sont aussi des événements. 1.2.2 Axiomes des probabilités Une loi de probabilité, ou distribution de probabilité, est une fonction P qui à un événement A associe un nombre P[A], sa probabilité. Ce nombre traduit les chances que l’événement a de se produire. Le moyen le plus intuitif de définir une telle fonction est de répéter l’expérience aléatoire, et d’associer à tout événement sa fréquence empirique. Si n est le nombre d’expériences, nA le nombre de fois où l’événement A s’est produit, la fréquence empirique de A est le rapport nA /n. Voici par exemple 20 répétitions d’une expérience dont les éventualités sont 0, 1 et 2. 0, 1, 1, 1, 0, 0, 1, 2, 1, 2, 0, 1, 1, 2, 2, 0, 0, 0, 0, 2 . 10 STA230 Cours de Statistique UJF Grenoble Dans cet exemple, la fréquence empirique de {0} est 8/20, celle de {1, 2} est 12/20. L’inconvénient est que la fréquence empirique changera si on renouvelle les n expériences. En d’autres termes l’ensemble des n répétitions constitue une nouvelle expérience aléatoire. Cependant nous avons tous en tête une idée de la loi des grands nombres selon laquelle les fréquences empiriques sur un grand nombre de répétitions varient peu. Voici quatre calculs successifs de la fréquence empirique de {0}, sur 20 000 répétitions de la même expérience que ci-dessus. 0.3304 , 0.3273 , 0.3364 , 0.32415 . Les propriétés que l’on attend d’une loi de probabilité sont celles des fréquences expérimentales. On les considère comme des axiomes de définition. A1 Pour tout événement A, 0 6 P[A] 6 1. A2 La probabilité de l’événement certain est 1 : P[Ω] = 1. A3 Si (Ai )i∈N est une suite d’événements disjoints deux à deux (Ai et Aj ne peuvent pas se produire en même temps si i 6= j), alors : P[ [ Ai ] = i∈N X P[Ai ] . i∈N Une conséquence immédiate des axiomes A2 et A3 est la relation entre les probabilités d’un événement A et de son contraire, noté A. P[A] = 1 − P[A] . Une loi de probabilité est croissante par inclusion, d’après A1 et A3 : si A ⊂ B, alors P[A] 6 P[B]. Les lois de probabilité que l’on manipule en pratique sont de deux types particuliers, les lois discrètes et les lois continues. 1. Lois discrètes L’ensemble des éventualités Ω est fini ou dénombrable : Ω = {ωi , i ∈ I ⊂ N} . Toutes les parties de Ω sont des événements. Comme tout événement est une réunion finie ou dénombrable de singletons, il suffit de définir la probabilité de chaque singleton : ∀ωi ∈ Ω , P[{ωi }] = pi . Pour tout A ⊂ Ω, la probabilité de A sera alors déterminée par A3 : P[A] = X P[{ωi }] = ωi ∈A X pi . ωi ∈A Exemple : Si l’ensemble des résultats est fini Ω = {ω1 , . . . , ωn } et si aucune information ne permet de distinguer les résultats, il est naturel d’associer à chaque éventualité 11 STA230 Cours de Statistique UJF Grenoble la probabilité 1/n. La probabilité de tout événement A est alors Card(A)/n. Cette probabilité particulière s’appelle l’équiprobabilité. Tous les calculs dans ce cas se ramènent à des dénombrements : probabilité = nombre de cas favorables . nombre de cas possibles 2. Lois continues L’ensemble des éventualités Ω est R. Les événements sont les intervalles, et tous les sous-ensembles de R que l’on peut former en combinant des intervalles par intersections et réunions. En théorie de la mesure, on les appelle des boréliens. Définition 3. On appelle densité de probabilité une fonction de R dans R+ , continue par morceaux et d’intégrale 1. f (x) > 0 , ∀x ∈ R et Z f (x) dx = 1 . R Étant donnée une densité de probabilité, on définit une loi de probabilité sur R en associant à tout événement A l’intégrale de la densité sur cet événement : P[A] = Z f (x) dx . A Exemple : Pour l’expérience aléatoire consistant à tirer au hasard un réel dans [0, 1] (par simulation), on considérera sur R la loi de probabilité continue, de densité : ( f (x) = 1 si x ∈ [0, 1] , 0 sinon. Elle donne à tout intervalle inclus dans [0, 1] une probabilité égale à sa longueur. Comme dans l’exemple ci-dessus, il est fréquent qu’une densité soit strictement positive sur un intervalle (éventuellement non borné) de R, et nulle ailleurs. L’intervalle sur lequel f est strictement positive s’appelle le support de la loi. On peut voir une probabilité comme une répartition de masse sur l’ensemble des éventualités. La masse totale vaut 1. Dans le cas discret, elle est répartie sur chacune des éventualités en “grains de plomb” distincts. Dans le cas continu, elle est répartie sur tout un intervalle de R, qui devient comme un fil de masse 1 dont la densité de masse serait variable. Calculer la probabilité d’un événement, c’est calculer sa masse. À part cette analogie, quel sens pratique a la notion de probabilité ? Peut-on mesurer physiquement des probabilités ? Le seul sens concret que l’on puisse leur donner est celui, intuitif, de la loi des grands nombres. “Pile a une chance sur deux de se produire” signifie pour nous “si je lance la pièce un grand nombre de fois, Pile sortira environ une fois sur deux.” 12 STA230 Cours de Statistique UJF Grenoble Intuition : La probabilité d’un événement est la limite de ses fréquences empiriques sur un grand nombre d’expériences indépendantes. Cette intuition comporte plusieurs coins d’ombres. Que les fréquences empiriques convergent sous certaines hypothèses est un théorème (c’est ce théorème qui porte le nom de loi des grands nombres). Pourquoi rajouter l’adjectif “indépendantes” ? Imaginez une machine de précision à lancer les pièces : un bras articulé muni d’un plateau, relié à un ressort réglable à une valeur fixée une fois pour toutes. Mettons le ressort sous tension, posons la pièce sur le plateau, côté pile, et lâchons le ressort. Au premier essai on ne pourra pas prévoir si la pièce tombera sur pile ou face. Mais l’information apportée par le résultat du premier essai permettra de prévoir les suivants : les expériences ne seront pas indépendantes. Les fréquences empiriques vaudront 1 ou 0 mais ne fourniront aucun renseignement sur le fait que la pièce soit équilibrée ou non. L’objectif principal du paragraphe suivant est de préciser les notions de dépendance et d’indépendance d’événements et d’expériences aléatoires. 1.2.3 Probabilités conditionnelles La connaissance d’une information sur une expérience peut modifier l’idée qu’on se fait de la probabilité d’un événement. La probabilité d’attendre plus d’une heure au guichet est supérieure s’il y a beaucoup de monde devant vous. Définition 4. Soient A et B deux événements tels que P[B] 6= 0. La probabilité conditionnelle de A sachant B est : P[A ∩ B] . P[A | B] = P[B] Interpétation : Le fait de savoir que B est réalisé réduit l’ensemble des résultats possibles de Ω à B. À partir de là, seules les éventualités de A ∩ B ont une importance. La probabilité de A sachant B doit donc être proportionnelle à P[A ∩ B]. Le coefficient de proportionnalité 1/P[B] assure que l’application qui à A associe P[A|B] est bien une probabilité, pour laquelle B est l’événement certain. Point de vue fréquentiste : Si on admet la loi des grands nombres, la probabilité doit être vue comme une limite de fréquences empiriques. Avec les notations du paragraphe précédent, nA∩B /n (resp. nB /n) est la fréquence empirique de A ∩ B (resp. B), et on a: P[A ∩ B] nA∩B /n nA∩B ≈ = . P[A | B] = P[B] nB /n nB Il faut donc voir la probabilité conditionnelle P[A | B] comme la limite quand le nombre d’expériences tend vers l’infini de la proportion de fois où A est réalisé parmi les expériences où B l’est aussi. Une loi de probabilité conditionnelle est une loi de probabilité. En particulier, si A1 et A2 sont disjoints (incompatibles) alors : P[A1 ∪ A2 | B] = P[A1 | B] + P[A2 | B] . 13 Cours de Statistique STA230 UJF Grenoble aussi : P[A | B] = 1 − P[A | B] . La définition des probabilités conditionnelles s’utilise souvent sous la forme : P[A ∩ B] = P[A | B] P[B] = P[B | A] P[A] . Si (Bi )i∈I est une famille dénombrable d’événements disjoints deux à deux, dont la réunion est l’événement certain Ω (partition de Ω), alors : P[A] = X P[A ∩ Bi ] = i∈I X P[A | Bi ] P[Bi ] . i∈I C’est la formule des probabilités totales. Mais aussi, pour tout j ∈ I : P[Bj | A] = P[A | Bj ] P[Bj ] P[Bj ∩ A] = P . P[A] P[A | Bi ] P[Bi ] i∈I C’est la formule de Bayes. L’idée intuitive d’indépendance de deux événements est la suivante : A et B sont indépendants si le fait de savoir que B se produit ou non ne modifie pas les chances de A. Ou encore : sur un grand nombre d’expériences, la proportion des fois où A s’est produit quand B était réalisé est approximativement la même que quand il ne l’était pas. Exemple : A : “La bourse de New-York est en hausse”. B : “Il pleut à Paris”. Dire que A et B sont indépendants, c’est dire que la bourse de New-York est en hausse aussi souvent quand il pleut à Paris que quand il ne pleut pas. En terme de fréquences, on écrira : nA∩B nA nA∩B ≈ ≈ . nB nB n Soit pour les probabilités : P[A|B] = P[A | B] = P[A] , ou encore, P[A ∩ B] = P[A] . P[B] 14 STA230 Cours de Statistique UJF Grenoble Définition 5. Deux événements A et B sont indépendants si : P[A ∩ B] = P[A] P[B] . Deux expériences aléatoires sont indépendantes si tout événement observable à l’issue de l’une est indépendant de tout événement observable à l’issue de l’autre. Attention : Il ne faut pas confondre indépendants et incompatibles. Pour deux événements incompatibles on a P[A∪B] = P[A]+P[B]. Deux événements incompatibles de probabilités non nulles ne sont jamais indépendants. Si l’un des deux se produit, l’autre ne peut pas se produire. La définition d’indépendance se généralise de la façon suivante. Définition 6. Les événements A1 , . . . , An sont indépendants si pour tout sous-ensemble d’indices {i1 , . . . , ik } ⊂ {1, . . . , n}, la probabilité de l’intersection est le produit des probabilités : k \ P[ Aij ] = j=1 k Y P[Aij ] . j=1 Des expériences aléatoires E1 , . . . , En sont indépendantes si pour tout n-uplet d’événements A1 , . . . , An , où Ai est observable à l’issue de Ei , les n événements A1 , . . . , An sont indépendants. Une suite (En )n∈N est une suite d’expériences indépendantes si pour tout n les expériences E1 , . . . , En sont indépendantes. Dans les définitions que nous avons données jusqu’ici se trouve un cercle vicieux : Une probabilité est une limite de fréquences sur des expériences indépendantes. Deux événements sont indépendants si la probabilité de leur intersection est le produit des probabilités. Les deux notions de probabilité et d’indépendance sont donc indissociables, et en un sens impossibles à définir en pratique. Tout ce que l’on peut faire, c’est montrer la cohérence de leurs définitions. Une probabilité étant donnée pour les événements observables à l’issue d’une expérience aléatoire, cette probabilité est bien limite de fréquences empiriques quand la même expérience est répétée indépendamment. C’est la loi des grands nombres. 1.3 1.3.1 Variables aléatoires Loi d’une variable aléatoire Une variable aléatoire est un nombre dépendant du résultat d’une expérience aléatoire. L’enjeu est la localisation de ce nombre : déterminer quelles sont ses chances de tomber sur telle ou telle partie de R. Cette localisation conduit à associer à toute variable aléatoire une loi de probabilité sur R. 15 STA230 Cours de Statistique UJF Grenoble Définition 7. On appelle loi de la variable aléatoire X la loi de probabilité PX sur R, définie pour tout borélien A de R par : PX [A] = P[X ∈ A] . En pratique, on oublie le codage initial en éventualités et la loi P sur Ω, pour ne retenir que la loi PX sur R. Si on n’observe qu’une seule variable aléatoire X, on pourra d’ailleurs considérer que les éventualités sont les valeurs réelles qu’elle peut prendre, et munir cet ensemble de la loi de X. Pour des raisons de modélisation autant que de commodité mathématique, on distingue deux types de variables aléatoires. Les variables aléatoires discrètes ne prennent qu’un nombre fini ou dénombrable de valeurs (en général entières). Les variables aléatoires continues peuvent a priori prendre toutes les valeurs dans un intervalle de réels. Cette distinction correspond bien sûr à celle déjà introduite pour les lois de probabilité. En général, on sera amené à répéter une même expérience pour en faire une nouvelle expérience globale, et donc à observer plusieurs variables aléatoires à l’issue d’une expérience. La notion d’indépendance entre variables aléatoires joue un rôle important dans ce qui suit. Définition 8. Les variables aléatoires X1 , . . . , Xn sont dites indépendantes si pour tout n-uplet (A1 , . . . , An ) de boréliens de R, les événements “X1 ∈ A1 ”, . . . ,“Xn ∈ An ” sont indépendants. Une suite (Xn ) de variables aléatoires indépendantes est telle que pour tout n les variables aléatoires (X1 , . . . , Xn ) sont indépendantes. L’indépendance est donc une propriété des événements “Xi ∈ Ai ”. On en déduit que si X et Y sont indépendantes, alors toute fonction de X est indépendante de toute fonction de Y . 1.3.2 Variables aléatoires discrètes Définition 9. On dit qu’une variable aléatoire est discrète si elle ne prend qu’un nombre fini ou dénombrable de valeurs : X ∈ {xk , k ∈ K ⊂ N} . Dans ce cas, la loi de la variable aléatoire X est la loi de probabilité sur l’ensemble des valeurs possibles de X qui affecte la probabilité P[X = xk ] au singleton {xk }. En pratique, l’ensemble des valeurs que peut prendre X est N ou une partie de N. Déterminer la loi d’une variable aléatoire discrète c’est : 1. Déterminer l’ensemble des valeurs que peut prendre X. 2. Calculer P[X = xk ] pour chacune de ces valeurs xk . 16 Cours de Statistique STA230 UJF Grenoble Point de vue fréquentiste. Rappelons que le seul sens pratique que l’on puisse donner à la notion de probabilité est celui d’une limite de fréquences empiriques. C’est aussi le sens qu’il faut donner à la notion de loi discrète. Répétons n fois indépendamment l’expérience aléatoire à l’issue de laquelle X est mesurée. On obtient ainsi un n-uplet (X1 , . . . , Xn ) de variables aléatoires indépendantes de même loi que X (cela s’appelle un échantillon). On peut sur ce n-uplet calculer les fréquences empiriques des événements “X = xk ” : 1 I{xk } (X1 ) + · · · + I{xk } (Xn ) . fn ({xk }) = n D’après la loi des grands nombres cette fréquence doit converger vers P[X = xk ]. Pour tout n les fréquences empiriques {fn ({xk }) , k ∈ K} définissent une loi de probabilité discrète sur l’ensemble des xk . On représente souvent graphiquement les lois discrètes par des diagrammes en bâtons : il s’agit de tracer au dessus de l’abscisse xk un segment vertical de longueur égale à P[X = xk ]. Les lois discrètes les plus courantes sont les suivantes. La loi binomiale est la plus importante. Loi uniforme. La loi uniforme sur un ensemble fini est la loi des “tirages au hasard” dans cet ensemble, ou équiprobabilité. Elle donne la même probabilité 1/n à tous les éléments de l’ensemble, s’il est de cardinal n. Loi de Bernoulli. Les plus simples des variables aléatoires discrètes sont les indicatrices d’événements. Si A est un événement de probabilité p, la variable aléatoire IA prend la valeur 1 si A est réalisé, et 0 sinon. Sa loi est la loi de Bernoulli de paramètre p. P[IA = 0] = 1 − p , P[IA = 1] = p . Les deux autres exemples de base sont la loi binomiale et la loi hypergéométrique. Loi binomiale. On répète la même expérience n fois indépendamment et on compte le nombre de fois où l’événement A se produit. On considérera la répétition des n expériences comme une nouvelle expérience globale. Comme seul l’événement A nous importe, on pourra ne retenir de l’expérience globale qu’un n-uplet de booléens du type : (A, A, A, A, A, . . . , A, A), qu’il sera plus ( simple de transformer en un n-uplet de 0 et de 1. Notons : 1 si A est vrai à l’issue de la i-ème expérience, • Xi = 0 si A est faux à l’issue de la i-ème expérience. • Sn = n X Xi le nombre de fois où A est réalisé au cours des n expériences. i=1 17 Cours de Statistique STA230 UJF Grenoble Si p désigne la probabilité de l’événement A, la variable aléatoire Xi suit la loi de Bernoulli de paramètre p. La variable aléatoire Sn prend ses valeurs dans l’ensemble {0, . . . , n}. Pour déterminer sa loi, ce sont les événements du type “Sn = k” qui nous intéressent. Du fait de l’hypothèse d’indépendance des expériences, la probabilité d’un résultat quelconque de l’expérience globale est un produit de probabilités. Par exemple : P[(A, A, A, A, A, . . . , A, A)] = p (1−p) p p (1−p) . . . (1−p) p . Tout n-uplet particulier contenant k “1” et n − k “0” a pour probabilité pk (1−p)n−k . Il y en a : ! n n! = ; k k! (n−k)! c’est le nombre de manières de choisir k indices parmi n. D’où : ! n k P[Sn = k] = p (1 − p)n−k , k ∀k = 0, . . . , n . Définition 10. On dit qu’une variable aléatoire X suit la loi binomiale de paramètres n et p (notée B(n, p)) si : 1. X prend ses valeurs dans l’ensemble {0, 1, . . . , n} 2. P[X = k] = n k pk (1 − p)n−k , ∀k = 0, . . . , n . À retenir : Le nombre d’occurrences d’un même événement de probabilité p, au cours de n expériences indépendantes suit la loi binomiale B(n, p). Remarque : C’est une bonne habitude à! prendre que de vérifier que la somme des n X n k p (1 − p)n−k = (p + (1 − p))n = 1, par la probabilités calculées vaut 1. Ici : k k=0 formule du binôme de Newton (d’où le nom de loi binomiale). Loi hypergéométrique. La loi hypergéométrique est la loi des “tirages sans remise”. D’une population de taille N , on extrait au hasard un échantillon (sous-ensemble) de taille n. Parmi les N individus, m sont “marqués”. Le nombre X d’individus marqués sur les n individus choisis, suit la loi hypergéométrique de paramètres N , m et n, La variable aléatoire X prend ses valeurs dans l’ensemble {0, . . . , n}, et pour tout k ∈ {0, . . . , n} : P[X = k] = m k N −m n−k N n , où par convention ji = 0, si j 6∈ {0, . . . , i}. On rencontre fréquemment cette loi dans les jeux de hasard. Variable aléatoire Nombre d’as dans une main au poker Nombre d’as dans une main au bridge Nombre de bons numéros sur une grille au loto Nombre de bons numéros sur une grille au Kéno 18 N 32 52 49 70 m n 4 5 4 6 6 6 20 4, 5, . . . , 10 Cours de Statistique STA230 1.3.3 UJF Grenoble Variables aléatoires continues Définition 11. Soit X une variable aléatoire à valeurs dans R et fX une densité de probabilité sur R. On dit que X est une variable aléatoire continue de densité fX si pour tout intervalle A de R on a : P[X ∈ A] = Z A fX (x) dx . La loi de la variable aléatoire X est la loi continue sur R, de densité fX . Pour déterminer la loi d’une variable aléatoire continue, il faut donc calculer sa densité. De manière équivalente, on détermine la loi d’une variable continue en donnant la probabilité qu’elle appartienne à un intervalle I quelconque. Une variable aléatoire continue X, de densité fX , tombe entre a et b avec une probabilité égale à : Z b P[a < X < b] = a fX (x) dx . Plus la densité fX est élevée au-dessus d’un segment, plus les chances que X a d’atteindre ce segment sont élevées, ce qui justifie le terme “densité”. La probabilité pour une variable aléatoire continue de tomber sur un point quelconque est nulle. Z P[X = a] = fX (x) dx = 0 . {a} Par conséquent : P[ X ∈ [a, b] ] = P[ X ∈ [a, b[ ] = P[ X ∈]a, b] ] = P[ X ∈]a, b[ ] . Notons aussi que modifier une densité en un nombre fini ou dénombrable de points ne change pas la valeur des intégrales sur des segments, ni par conséquent la loi de probabilité correspondante. La valeur de la densité en un point particulier importe peu. Comme dans le cas discret nous donnons quelques exemples de base. Les densités sont données en un point x quelconque de R. Loi uniforme. La loi uniforme sur un intervalle est la loi des “tirages au hasard” dans cet intervalle. Si a < b sont deux réels, la loi uniforme sur l’intervalle [a, b] est notée U(a, b). Elle a pour densité : 1 I[a,b] (x) . b−a Attention à ne pas confondre “Nombre au hasard” et “variable aléatoire”. Le sens intuitif de au hasard est “uniformément réparti” : un “nombre au hasard entre 0 et 1” est en fait une variable aléatoire de loi U(0, 1). Il existe bien d’autres lois de probabilité continues, non uniformes. 19 Cours de Statistique STA230 UJF Grenoble Loi normale. La loi normale, loi de Gauss, ou de Laplace-Gauss, est la plus célèbre des lois de probabilité. Son succès, et son omniprésence dans les sciences de la vie, viennent du théorème central limite que nous verrons plus loin. La loi normale de paramètres µ ∈ R et σ 2 ∈ R+ est notée N (m, σ 2 ). Elle a pour densité : (x−m)2 1 √ e− 2σ2 . σ 2π Loi gamma. La loi gamma de paramètres a > 0 et λ > 0, notée G(a, λ) a pour densité : λa a−1 −λx x e IR+∗ (x) , Γ(a) où Γ est la “fonction gamma”, définie par : Γ(a) = 0+∞ e−x xa−1 dx. Pour n entier, a = n/2 et λ = 1/2, la loi G(n/2, 1/2) est appelée loi du khideux à n degrés de liberté, et notée X 2 (n). C’est la loi de la somme des carrés de n variables aléatoires indépendantes de loi N (0, 1). On l’utilise pour les variances empiriques d’échantillons gaussiens. R Loiqde Student. La loi de Student à n degrés de liberté, T (n) est la loi du rapport X/ Y /n, où les variables aléatoires X et Y sont indépendantes, X de loi N (0, 1), Y de loi X 2 (n). Elle a pour densité : n+1 Γ n+1 x2 − 2 2 1+ . √ n nπΓ n2 On l’utilise pour étudier la moyenne empirique d’un échantillon gaussien. Loi de Fisher. La loi de Fisher de paramètres m et n (entiers positifs), est la loi du rapport (X/n)/(Y /m), où X et Y sont deux variables aléatoires indépendantes, de lois respectives X 2 (n) et X 2 (m). Elle a pour densité : n Γ m n2m 2 Γ n+m 2 n 2 Γ n+m n x−1+ 2 (m + nx)− 2 IR+∗ (x) m . 2 On l’utilise pour comparer des variances d’échantillons gaussiens. 1.3.4 Fonction de répartition et fonction quantile La fonction de répartition d’une variable aléatoire X à valeurs dans R (ou plus exactement de sa loi) est la fonction FX , de R dans [0, 1], qui à x ∈ R associe : FX (x) = P[X 6 x] . Les propriétés principales sont les suivantes. 20 Cours de Statistique STA230 UJF Grenoble Proposition 1. • La fonction de répartition caractérise la loi. En particulier, ∀a < b ∈ R , P[ X ∈]a, b] ] = FX (b) − FX (a) . • FX est une fonction croissante, continue à droite avec une limite à gauche en tout point. • lim FX (x) = 0 et lim FX (x) = 1 . x→−∞ x→+∞ Lois discrètes. La fonction de répartition d’une variable aléatoire discrète est une fonction en escalier. Si la variable aléatoire prend les valeurs xk , k = 1, 2, . . ., supposées rangées par ordre croissant, alors la fonction de répartition FX prend les valeurs : FX (x) = 0 P[X = x1 ] .. . pour x < x1 pour x ∈ [x1 , x2 [ P[X = x1 ] + · · · + P[X = xk ] .. . pour x ∈ [xk , xk+1 [ Probabilites Repartition 0.5 1.0 0.9 0.4 0.8 0.7 0.3 0.6 0.5 0.2 0.4 0.3 0.1 0.2 0.1 . 0.0 -1 0 . 0.0 1 2 3 4 5 -1 0 1 2 3 4 5 Fig. 5 – Diagramme en bâtons et fonction de répartition de la loi du nombre de bons numéros pour 4 numéros cochés au Kéno. Voici par exemple la loi et les valeurs différentes de la fonction de répartition pour le nombre de bons numéros pour 4 numéros cochés sur une grille de Kéno (figure 5). k 0 1 2 3 4 P[X = k] 0.2512 0.4275 0.2538 0.0622 0.0053 P[X 6 k] 0.2512 0.6787 0.9325 0.9947 1 Lois continues. La fonction de répartition d’une variable aléatoire continue est la primitive de la densité qui s’annule en −∞ : FX (x) = P[X 6 x] = 21 Z x −∞ fX (t) dt . Cours de Statistique STA230 UJF Grenoble C’est une fonction continue sur R. En tout point x où fX est continue, FX est dérivable et : FX0 (x) = fX (x) . Loi U(a, b) Z x FX (x) = −∞ 0 si x 6 a 1 I[a,b] (t)dt = x − a si x ∈ [a, b] b−a b−a 1 si x > b . Loi N (µ, σ 2 ) (t−µ)2 1 √ e− 2σ2 dt . −∞ σ 2π Il n’existe pas d’expression analytique pour la fonction de répartition des lois normales. Pour en calculer des valeurs approchées, vous utiliserez des tables numériques, en vous ramenant à la fonction de répartition de la loi N (0, 1), que nous noterons F . FX (x) = Z x F (x) = FN (0,1) (x) = Z x −∞ t2 1 √ e− 2 dt . 2π Tous les langages spécialisés ont un code d’intégration numérique qui calcule la fonction de répartition de toutes les lois usuelles. Densite Repartition f(x) 0.5 F(x) 1.0 0.9 0.4 0.8 0.7 0.3 0.6 0.5 0.2 0.4 0.3 0.1 0.2 0.1 x . 0.0 -3 -2 -1 0 x . 0.0 1 2 3 -3 -2 -1 0 1 2 3 Fig. 6 – Densité et fonction de répartition de la loi normale N (0, 1). La fonction de répartition est l’outil privilégié des calculs de lois. Un cas fréquent dans les applications est celui où on connaît la loi de X et on veut déterminer la loi d’une fonction. Comme exemple d’application, nous allons démontrer le résultat qui permet de ramener une loi normale quelconque à la loi N (0, 1). Théorème 1. Soit X une variable aléatoire de loi N (0, 1) et Y = σX + µ, avec µ ∈ R, σ ∈ R+ , alors Y suit la loi N (µ, σ 2 ). Réciproquement, si Y suit la loi N (µ, σ 2 ), alors X = Y σ−µ suit la loi N (0, 1). 22 Cours de Statistique STA230 UJF Grenoble Démonstration : y−µ y−µ = FX σ σ FY (y) = P[σX + µ 6 y] = P X 6 . La densité correspondante est : (y−µ)2 y−µ 1 1 = √ e− 2σ2 , fY (y) = fX σ σ σ 2π et donc Y suit la loi N (µ, σ 2 ). La deuxième affirmation n’est qu’une autre manière d’exprimer la première. La deuxième affimation est la plus utilisée. Elle permet de ramener les calculs de probabilité sur une loi normale quelconque aux calculs sur la loi N (0, 1). Si Y suit la loi normale d’espérance µ et de variance σ 2 , alors X = (Y − µ)/σ suit la loi N (1, 0). On calcule alors la probabilité pour Y d’appartenir à un intervalle quelconque, en se ramenant à la fonction de répartition de la loi N (0, 1), notée F , dont les valeurs se lisent dans les tables. " Y −µ b−µ a−µ 6 < P[a 6 Y < b] = P σ σ σ # ! =F b−µ −F σ a−µ σ . La fonction quantile d’une variable aléatoire X (ou de sa loi de probabilité) est la réciproque de sa fonction de répartition. Quand cette fonction de répartition est strictement croissante, sa réciproque est définie sans ambigüité : pour tout réel u entre 0 et 1, QX (u) est l’unique réel x tel que FX (x) = u. Mais une fonction de répartition reste constante sur tout intervalle dans lequel la variable aléatoire ne peut pas prendre de valeurs. C’est pourquoi on introduit la définition suivante. Définition 12. Soit X une variable aléatoire à valeurs dans R, et FX sa fonction de répartition. On appelle fonction quantile de X la fonction, notée QX , de ]0, 1[ dans R, qui à u ∈]0, 1[ associe : QX (u) = inf{x : FX (x) > u} . Par convention, on peut décider que QX (0) est la plus petite des valeurs possibles pour X et QX (1) est la plus grande ; elles sont éventuellement infinies. Lois discrètes. La fonction quantile d’une variable aléatoire discrète est une fonction en escalier, comme la fonction de répartition. Si X prend les valeurs xk , k = 1, 2 . . ., rangées par ordre croissant, la fonction de répartition est égale à : Fk = P[X = x1 ] + · · · + P[X = xk ] , 23 Cours de Statistique STA230 UJF Grenoble sur l’intervalle [xk , xk+1 [. La fonction quantile vaut : QX (u) = x1 .. . pour u ∈ [0, F1 ] xk .. . pour u ∈ [Fk , Fk+1 [ Par exemple, pour la loi géométrique G(p), la fonction quantile est la fonction qui, pour tout k = 1, 2, . . ., vaut k sur l’intervalle [1 − (1−p)k , 1 − (1−p)k+1 [. Lois continues. Plaçons-nous dans le cas le plus fréquent, où la densité fX est strictement positive sur un intervalle de R (son support) et nulle ailleurs. Si cet intervalle est [a, b], la fonction de répartition est nulle avant a si a est fini, elle est strictement croissante de 0 à 1 entre a et b, elle vaut 1 après b si b est fini. Toute valeur u strictement comprise entre 0 et 1 est prise une fois et une seule par FX . La valeur de QX (u) est le point x unique, compris entre a et b, tel que FX (x) = u. La fonction quantile est un moyen de décrire la dispersion d’une loi. Si on réalise un grand nombre de tirages indépendants de la même loi (un échantillon), on doit s’attendre à ce qu’une proportion u des valeurs soient inférieures à QX (u). Une valeur importante est la médiane, QX (0.5). Les valeurs de la fonction quantile sont plus souvent utilisées en statistique que les valeurs de la fonction de répartition. On utilise en particulier fréquemment les intervalles de dispersion, compris comme devant contenir une forte proportion des données. 1.3.5 Espérance et variance Rappelons l’interprétation d’une loi de probabilité comme une répartition de masse. L’espérance d’une loi de probabilité est le barycentre de cette répartition de masse. Lois discrètes. Considérons une variable aléatoire discrète X, prenant ses valeurs X dans {xk , k ∈ K ⊂ N}. Si la série |xk |P[X = xk ] converge alors l’espérance E[X] k∈K est : E[X] = X xk P[X = xk ] . k∈K C’est bien le barycentre des points d’abscisse xk , affectés des poids P[X = xk ]. Lois continues. Soit X une variable aléatoire continue, de densité fX sur R. Une densité s’interprète comme une distribution Zde masse continue sur R. C’est encore son barycentre que l’on calcule. Si l’intégrale |x|fX (x) dx converge, alors l’espérance R E[X] est : E[X] = Z x fX (x) dx . R Les propriétés principales de l’espérance sont les suivantes. 24 Cours de Statistique STA230 Proposition 2. UJF Grenoble 1. Si X et Y admettent une espérance, alors : ∀a, b ∈ R E[aX + bY ] = aE[X] + bE[Y ] . 2. Si X et Y sont indépendantes et admettent une espérance alors : E[XY ] = E[X] E[Y ] . Le tableau 1 donne les espérances des lois usuelles, discrètes et continues. Loi Espérance n+1 2 Uniforme U({1, . . . , n}) Bernoulli B(1, p) p Binomiale B(n, p) np Hypergéométrique HG(N, m, n) m nN Uniforme U(a, b) a+b 2 Normale N (µ, σ 2 ) µ khi-deux X 2 (n) n Student T (n) 0 si n > 1 m m−2 Fisher F(n, m) si m > 2 Tab. 1 – Espérances des lois usuelles. La variance traduit la plus ou moins grande dispersion des valeurs prises autour de l’espérance. Définition 13. On appelle variance de X, et on note V ar[X], l’espérance de la variable aléatoire (X − E[X])2 , si elle existe. On démontre que l’existence de la variance entraîne celle de l’espérance. Par contre une variable aléatoire X peut très bien avoir une espérance mais pas de variance. C’est le cas par exemple si X a pour densité : fX (x) = 2 I[1,+∞[ (x) . x3 Le calcul des variances est souvent simplifié par le résultat suivant. 25 Cours de Statistique STA230 UJF Grenoble Proposition 3. La variance de X existe si et seulement si E[X 2 ] existe et on a : V ar[X] = E[X 2 ] − (E[X])2 . Démonstration : Pour passer de la définition à la formule ci-dessus, il suffit de développer le carré et d’utiliser la linéarité de l’intégrale. V ar[X] = = = = E[(X − E[X])2 ] E[X 2 − 2XE[X] + (E[X])2 ] E[X 2 ] − 2E[X]E[X] + (E[X])2 E[X 2 ] − (E[X])2 . La variance mesure de combien les valeurs prises par X s’écartent de la valeur moyenne E[X]. Elle n’est pas homogène : si X est une longueur exprimée en mètres, V ar[X] est en mètres-carrés. On corrige ceci en introduisant l’écart-type qui est la racine carrée de la variance. Les propriétés principales de la variance sont les suivantes. Proposition 4. • Pour tout a ∈ R : V ar[aX] = a2 V ar[X]. • Pour tout b ∈ R : V ar[X + b] = V ar[X]. • Si X et Y sont indépendantes, alors : V ar[X + Y ] = V ar[X] + V ar[Y ] . Le tableau 2 donne les variances des lois usuelles, discrètes et continues. 1.3.6 Théorèmes limites Le premier résultat est la traduction mathématique de l’idée intuitive de loi des grands nombres. Théorème 2. Soit X une variable aléatoire admettant une variance. Soit (Xn )n∈N une suite de variables aléatoires indépendantes de même loi que X. Alors pour tout ε > 0 : X1 lim P n→∞ + · · · + Xn − E[X] > ε = 0 . n L’idée intuitive est que si on mesure une même quantité aléatoire au cours d’une suite d’expériences indépendantes, alors la moyenne arithmétique des valeurs observées va se stabiliser sur l’espérance. Comme cas particulier on retrouve la loi des grands nombres pour la probabilité d’un événement. Pour une suite d’expériences indépendantes notons Xi l’indicatrice de l’événement A à la i-ème expérience. Les Xi suivent la loi de Bernoulli de paramètre P[A] et (X1 + · · · + Xn )/n est la fréquence empirique de A. 26 Cours de Statistique STA230 Loi UJF Grenoble Variance n2 −1 12 Uniforme U({1, . . . , n}) Bernoulli B(1, p) p(1 − p) Binomiale B(n, p) np(1 − p) m 1− nN Hypergéométrique HG(N, m, n) m N N −n N −1 (a−b)2 12 2 Uniforme U(a, b) Normale N (µ, σ 2 ) σ khi-deux X 2 (n) 2n n n−2 Student T (n) si n > 2 n+m−2 2m2 n (m−2)2 (m−4) Fisher F(n, m) si m > 4 Tab. 2 – Variances des lois usuelles. L’ordre de grandeur de l’erreur √ commise en approchant E[X] par la moyenne (X1 + · · · + Xn )/n est de l’ordre de 1/ n. Cette estimation d’erreur sera précisée plus loin par la notion d’intervalle de confiance, grâce au théorème central limite. Théorème 3. Soit (Xn ), n ∈ N∗ , une suite de variables aléatoires indépendantes de même loi, d’espérance µ et de variance σ 2 finies. Posons : ∀n ∈ N∗ , Xn = X1 + · · · + Xn n et Zn = √ Xn − µ . n σ La loi de Zn converge vers la loi normale N (0, 1), c’est-à-dire que pour tout a < b : lim P[a < Zn < b] = n→∞ Z b a 1 2 √ e−x /2 dx . 2π Interprétation : Dans le théorème central limite, µ est la valeur à estimer. Les n valeurs X1 , . . . , Xn constituent un échantillon de mesures aléatoires indépendantes d’espérance µ. La quantité (X1 + · · · + Xn )/n est la moyenne empirique de l’échantillon, qui d’après la loi des grands nombres doit converger vers l’espérance µ. Le théorème central limite donne la précision de cette approximation. On peut le lire intuitivement comme suit. Si n est assez grand alors Zn est très probablement compris entre −3 et 3 (la probabilité est 0.9973). Soit encore : X1 + · · · + Xn −µ ∈ n 27 " 3σ 3σ −√ ; +√ n n # , STA230 Cours de Statistique UJF Grenoble √ ou bien X n (moyenne empirique) est égale à µ à 3σ/ n près. Nous formaliserons ceci plus loin par la notion d’intervalle de confiance. Le théorème central limite est utilisé pour des valeurs finies de n. L’idée concrète est la suivante. Si n est assez grand, la variable centrée réduite (espérance 0, variance 1) Zn associée à la somme de n variables indépendantes suit approximativement la loi N (0, 1). Si on réalise suffisamment de simulations de Zn et si on trace un histogramme 2 des valeurs obtenues, celui-ci ne sera pas très loin de la courbe √12π e−x /2 . Pas plus loin en tout cas que si on avait simulé des variables aléatoires de loi N (0, 1). Si Z suit la loi N (0, 1), alors Y = σZ + µ suit la loi N (µ, σ 2 ). On peut aussi dire que pour n assez grand une somme de n variables aléatoires indépendantes suit approximativement une loi normale, dont l’espérance et la variance sont respectivement la somme des espérances et la somme des variances des variables que l’on ajoute. Le problème est de savoir à partir de quelle valeur n est “assez grand”, pour la précision désirée. Cela dépend beaucoup de la loi des Xn . L’approximation est d’autant meilleure que la loi des Xn est plus symétrique. Pour des lois plutôt dissymétriques comme la loi exponentielle, l’approximation normale n’est pas valable pour des sommes de quelques dizaines de variables. On peut la considérer comme justifiée à partir de quelques centaines. En simulation, ce sont des milliers, voire des millions de variables qui sont engendrées, et l’approximation normale est tout à fait légitime. 1.4 Distribution empirique 1.4.1 Statistique et probabilités Les traitements statistiques relèvent d’un aller-retour permanent entre les données, qui sont des collections de chiffres mesurés, et les modèles probabilistes qui n’ont aucune réalité physique, mais fournissent des outils pour décrire la variabilité de ces données. Dans cette démarche, un premier pas consiste à associer à l’échantillon une loi de probabilité fictive. La distribution empirique associée à un échantillon est la loi de probabilité sur l’ensemble des modalités qui affecte chaque observation du poids 1/n. L’idée est la suivante. Supposons que l’on souhaite augmenter artificiellement le nombre de données. Le moyen le plus simple serait de tirer au hasard de nouvelles données parmi les valeurs observées, en respectant leurs fréquences. En d’autres termes, on simulerait la distribution empirique. Définition 14. Soit (x1 , . . . , xn ) un échantillon, c1 , . . . , ck les valeurs distinctes prises par les xi et pour h = 1, . . . , k : nh = n X Ich (xi ) , i=1 l’effectif de la valeur ch . La distribution empirique de l’échantillon est la loi de proba28 Cours de Statistique STA230 UJF Grenoble bilité Pb sur l’ensemble {c1 , . . . , ck }, telle que : Pb (ch ) = nh . n La moyenne, la variance et l’écart-type peuvent être vus comme des caractéristiques probabilistes de la distribution empirique. La moyenne de l’échantillon est l’espérance de sa distribution empirique. Pour un caractère discret, le mode de la distribution empirique est la valeur qui a la fréquence la plus élevée. Pour un caractère continu regroupé en classes d’amplitudes égales, on parle de classe modale. Une distribution empirique est dite unimodale si la fréquence maximale est significativement plus grande que les autres. Elle peut être bimodale ou multimodale dans d’autres cas. Pour étudier une distribution empirique, la première étape consiste à trier les données par ordre croissant, à savoir écrire ses statistiques d’ordre. Définition 15. Soit (x1 , . . . , xn ) un échantillon numérique. On appelle statistiques d’ordre de l’échantillon, les valeurs x(1) , . . . , x(n) égales aux xi rangées par ordre croissant : x(1) = min {xi } 6 x(2) 6 · · · 6 x(n) = max {xi } . i=1,...,n i=1,...,n Voici par exemple un échantillon de taille 10 et ses 10 statistiques d’ordre. 5.7 , 3.2 , 8.4 , 4.1 , 6.9 , 5.3 , 1.7 , 3.2 , 2.5 , 7.4 ; 1.7 , 2.5 , 3.2 , 3.2 , 4.1 , 5.3 , 5.7 , 6.9 , 7.4 , 8.4 . La fonction de répartition empirique est la fonction de répartition de la distribution empirique. Définition 16. La fonction de répartition empirique est la fonction qui à un réel x associe la proportion d’éléments de l’échantillon qui sont inférieurs ou égaux à x. Elle est notée Fb . Dans le cas où tous les éléments de l’échantillon sont différents, elle vaut : Fb (x) = 0 pour x < x(1) .. . i n pour x(i) 6 x < x(i+1) .. . 1 pour x > x(n) . Représenter graphiquement la fonction de répartition empirique (en général on trace seulement les points de coordonnées (x(i) , Fb (xi ))), donne une première idée de la distribution empirique. Dans le cas où l’échantillon est discret (le nombre de valeurs différentes k est faible devant la taille de l’échantillon n), on représentera la distribution empirique par un 29 Cours de Statistique STA230 UJF Grenoble diagramme en bâtons. Il consiste à représenter les valeurs différentes c1 , . . . , ck en abscisse, avec au-dessus de chacune une barre verticale de hauteur égale à sa fréquence empirique f (ch ). Dans le cas où le nombre de valeurs différentes est très faible (inférieur à 10), et surtout pour des échantillons qualitatifs, on utilise aussi des représentations en camembert (pie-chart) ou en barres. Elles consistent à diviser un disque ou un rectangle proportionnellement aux différentes fréquences. La représentation correspondant au diagramme en bâtons pour un échantillon considéré comme continu (lorsque presque toutes les valeurs sont différentes), est l’histogramme. On choisit un nombre de classes k et un intervalle de représentation [a0 , ak ] que l’on a découpé en k intervalles [a0 , a1 ], ]a1 , a2 ], . . . , ]ak−1 , ak ]. On remplace alors la distribution empirique par une nouvelle loi de probabilité qui pour tout h = 1, . . . , k, charge l’intervalle ]ah−1 , ah ] avec sa fréquence empirique Pb (]ah−1 , ah ]) : Pb (]ah−1 , ah ]) = n 1X I]a ,a ] (xi ) . n i=1 h−1 h Tracer un histogramme consiste à représenter les classes en abscisses, avec au dessus de la h-ième un rectangle de hauteur fh /(ah−1 − ah ), donc de surface égale à fh . Cette représentation est celle d’une densité de probabilité, constante sur chacune des classes. Représenter un histogramme implique un certain a priori sur les données. On décide en effet que la fréquence de chacune des classes est bien sa fréquence empirique dans l’échantillon, mais que la distribution des données à l’intérieur de chaque intervalle est aléatoire, de loi uniforme sur cet intervalle. 0.10 Frequences 0.10 0.09 0.09 0.08 0.08 0.07 0.07 0.06 0.06 0.05 0.05 0.04 0.04 0.03 0.03 0.02 Frequences 0.02 0.01 0.01 Tailles 0.00 Tailles 0.00 100 102 104 106 108 110 112 114 116 118 120 122 124 126 128 130 100 102 104 106 108 110 112 114 116 118 120 122 124 126 128 130 Fig. 7 – Tailles d’enfants de 6 ans. Histogramme régulier et non régulier. 1.4.2 Quantiles La fonction quantile d’une loi de probabilité est l’inverse (généralisé) de sa fonction de répartition. Si F désigne la fonction de répartition, la fonction quantile Q est la fonction qui à u ∈]0, 1[ associe : Q(u) = inf{x : F (x) > u} . 30 STA230 Cours de Statistique UJF Grenoble La fonction quantile empirique d’un échantillon est la fonction quantile de sa distribution empirique. Définition 17. Soit x = (x1 , . . . , xn ) un échantillon et (x(1) , . . . , x(n) ) le vecteur de ses b statistiques d’ordre. La fonction quantile empirique de l’échantillon est la fonction Q i−1 i qui, pour tout i = 1, . . . , n, vaut x(i) sur l’intervalle ] n , n ]. ∀u ∈] i−1 i , ], n n b Q(u) = x(i) . b Pour certaines valeurs de u, on donne un nom particulier aux quantiles Q(u). u 0.5 0.25, 0.75 0.1, . . . , 0.9 0.01, . . . , 0.99 b Q(u) Médiane Quartiles Déciles Centiles La médiane est une valeur centrale de l’échantillon : il y a autant de valeurs qui lui sont inférieures que supérieures. Si la distribution empirique de l’échantillon est peu dissymétrique, comme par exemple pour un échantillon simulé à partir d’une loi uniforme ou normale, la moyenne et la médiane sont proches. Si l’échantillon est dissymétrique, avec une distribution très étalée vers la droite, la médiane pourra être nettement plus petite que la moyenne. Contrairement à la moyenne, la médiane est insensible aux valeurs aberrantes. Il y a une part d’arbitraire dans la définition de la fonction quantile pour une distribution empirique : pour tous les points de l’intervalle [x(i) , x(i+1) [ la fonction de répartition vaut i/n. Ce sont surtout des raisons théoriques qui nous ont fait choisir x(i) plutôt b qu’un autre point comme valeur de Q(i/n). Ce peut être un assez mauvais choix en pratique. Considérons l’échantillon suivant, de taille 6. 1, 2, 3, 7, 8, 9 . La médiane telle que nous l’avons définie vaut 3. Or comme valeur centrale, le milieu de l’intervalle [3, 7], à savoir 5, s’impose clairement. Dans le cas d’échantillons de taille paire, l’intervalle [x( n2 ) , x( n2 +1) [ s’appelle l’intervalle médian. La médiane est parfois définie comme le milieu de l’intervalle médian. Ce problème ne se pose que dans le cas de petits échantillons et pour les quanb tiles Q(u) pour lesquels u est de la forme i/n (le plus souvent la médiane). Nous le négligerons désormais et nous conserverons la définition 17. Même sur de très gros échantillons, les quantiles sont peu coûteux à calculer puisqu’il suffit de trier l’échantillon par ordre croissant pour calculer les statistiques d’ordre et donc tous les quantiles simultanément. Ils fournissent une visualisation facile de la distribution empirique. Nous avons vu que la médiane est une valeur centrale. Pour 31 Cours de Statistique STA230 UJF Grenoble mesurer la dispersion, on peut calculer l’étendue, qui est la différence entre la plus petite et la plus grande valeur. Mais cette étendue reflète plus les valeurs extrêmes que la localisation de la majorité des données. On appréhende mieux la dispersion d’un échantillon par les intervalles inter-quartiles et inter-déciles. b b Définition 18. On appelle intervalle inter-quartiles l’intervalle [Q(0.25), Q(0.75)] qui contient la moitié centrale des valeurs de l’échantillon. On appelle intervalle interb b déciles l’intervalle [Q(0.1), Q(0.9)] qui contient 80% des valeurs centrales de l’échantillon. Ces intervalles sont à la base d’une représentation très compacte de la distribution empirique : le diagramme en boîte (ou boîte à moustaches, box plot, box-and-whisker plot). Il n’y a pas de définition standardisée de cette représentation. Elle consiste en une boîte rectangulaire dont les deux extrémités sont les quartiles. Ces extrémités se prolongent par des traits terminés par des segments orthogonaux (les moustaches). La longueur de ces segments varie selon les auteurs. Nous proposons de la fixer aux déciles extrêmes. On représente aussi la médiane par un trait dans la boîte, et parfois les valeurs extrêmes par des points (voir figure 8). b b Q(1) max{xi } b Q(0.9) décile supérieur b Q(0.75) quartile supérieur b Q(0.5) médiane b Q(0.25) quartile inférieur b Q(0.1) décile inférieur b b Q(0) min{xi } Fig. 8 – Diagramme en boîte. 1.4.3 Modèles probabilistes Le postulat de modélisation sur lequel toute étude statistique est basée est le suivant : Les données observées sont des réalisations de variables aléatoires. 32 Cours de Statistique STA230 UJF Grenoble Tailles 130 + + 128 + 126 + 124 + 122 + + + + + + + 120 ++ + + + + + + + + + ++ ++ + + + + 116 + + + + + + + + + + + + + + + ++ + + + + + + ++ + + + + + + + + + + + + + + + + 110 108 + + + + + + + + + + + + + 112 + + + + 118 114 + + + + + + + + 106 + 104 + 102 Individus + 100 0 10 20 30 40 50 60 70 80 90 100 Fig. 9 – Tailles d’enfants de 6 ans. La zone grisée correspond à l’intervalle interb b quartiles. La médiane est en trait plein, les déciles Q(0.1) et Q(0.9) en pointillés. Quand le résultat d’une expérience n’est pas reproductible exactement, on suppose qu’il est la réalisation d’une variable aléatoire. La théorie des probabilités fournit des outils, comme la loi des grands nombres ou le théorème central limite, permettant d’extraire des données ce qui est reproductible et qui peut donc fonder une prédiction ou une décision. Quand on traite des données, on sait bien que si un deuxième échantillon était recueilli dans les mêmes conditions, celui-ci serait différent du premier. Mais on espère que le deuxième échantillon ressemblerait au premier au sens où sa moyenne, sa variance, ses quantiles, seraient peu modifiés. L’observation d’échantillons successifs produits par un algorithme de simulation permet de se faire une bonne idée de cette ressemblance. Dans de nombreux cas, par exemple pour tout ce qui touche à l’humain (mesures de tailles, dosages sanguins, etc. . . ), la ressemblance d’échantillons distincts est validée par une longue expérience. En médecine, on sait bien qu’il n’y a pas deux individus qui présentent exactement les mêmes réactions. Mais un comptage du nombre moyen de globules rouges par litre de sang, effectué sur quelques centaines d’individus, variera peu si on le renouvelle sur une autre population. Dans cette situation, comme dans de nombreuses autres, les comptages effectués sur des individus différents seront considérés comme des tirages indépendants d’une même loi de probabilité. Cette loi de probabilité décrit la variabilité du phénomène. On considère en quelque sorte que l’échantillon aurait pu être produit en répétant des simulations indépendantes de la loi. Prenons l’exemple des tailles des filles de 18 ans (mesurées en centimètres ou bien en tailles vestimentaires). Parler de la taille des filles de 18 ans n’a de sens que dans un contexte probabiliste : deux filles différentes n’auront jamais exactement la même taille. On effectue en fait deux hypothèses de modélisation qui n’ont aucune base concrète : 33 STA230 Cours de Statistique UJF Grenoble 1. On peut associer à toute fille de 18 ans une mesure précise de sa taille. 2. Les tailles des filles de 18 ans sont des réalisations de variables aléatoires indépendantes et de même loi. Bien que fondées sur des objets abstraits, les conséquences mathématiques que l’on peut tirer des hypothèses de modélisation mènent à des prédictions et à des prises de décisions économiques ou politiques, qui sont tout à fait concrètes et seront validées par confrontation avec la réalité. Par exemple la distribution des tailles des filles de 18 ans a des conséquences évidentes sur l’industrie du prêt-à-porter. Si un fabriquant de vêtements cible sa production sur les adolescentes, il devra ajuster ses patrons à la taille de ses acheteuses potentielles : la répartition des vêtements produits entre les tailles les plus courantes, du 36 au 40, ne seront pas égales. Le fabriquant produira probablement plus de robes en 36 qu’en 40. Cette répartition ne serait pas la même pour des modèles destinés à des personnes âgées. Quand considère-t-on qu’un échantillon peut être modélisé par une suite de variables indépendantes ? Pour l’essentiel quand il est évident que l’ordre dans lequel on prend les individus n’a pas d’importance. C’est le cas pour toutes les mesures physiologiques sur une population humaine. Ce n’est pas le cas pour une série chronologique où les individus sont des instants successifs qui ne sont clairement pas interchangeables, et donc pas indépendants. D’ailleurs il serait sans intérêt de considérer par exemple les taux de chômage mensuels sur les trois dernières années comme des réalisations de 36 variables aléatoires indépendantes, puisque le but de l’observation est précisément de détecter une tendance dans ces chiffres, c’est-à-dire une dépendance permettant de prévoir partiellement les chiffres à venir. Dans ce cas, l’idée de base de la modélisation consistera à dire qu’il existe une fonction déterministe “cachée” qui permet de prévoir en partie le futur en fonction du passé. Les observations mensuelles sont vues comme des perturbations aléatoires de cette fonction déterministe. Dans le modèle interviendra alors la fonction déterministe cachée et un certain n-uplet de variables aléatoires indépendantes et de même loi, modélisant les perturbations aléatoires. Une situation analogue est celle où un caractère autre que celui qui est mesuré, a une influence sur la variable d’intérêt. Par exemple, si on soupçonne que le nombre de cigarettes fumées par jour a une influence sur le taux de cholestérol, on considérera que les taux de cholestérol mesurés sont des réalisations d’une variable aléatoire dont la loi dépend du nombre de cigarettes. On supposera qu’il existe une dépendance déterministe “cachée” à deviner, et que l’on observe sur chaque individu cette dépendance, perturbée par un facteur dû au pur hasard. Là encore, ce sont les perturbations aléatoires qui seront modélisées par un n-uplet de variables aléatoires indépendantes et de même loi. Dans toutes les situations où des résultats expérimentaux ne peuvent pas être considérés comme exactement reproductibles, on se ramène à un modèle contenant un nuplet de variables aléatoires indépendantes et de même loi. Un choix important est le type de la loi, discret ou continu. Quand il s’agit d’observer un caractère qualitatif, comme le groupe sanguin, ou ordinal, comme un classement dans un test psychologique, le choix d’un modèle discret est imposé par la nature des données. Le choix entre mo34 STA230 Cours de Statistique UJF Grenoble dèle discret ou continu n’est pas toujours aussi clair. Reprenons l’exemple des tailles des filles de 18 ans. On peut mesurer ces tailles au centimètre près, en étant conscient de l’imprécision inhérente aux mesures. Si les résultats observés sur un échantillon de 1000 individus prennent suffisamment de valeurs différentes, on choisira une loi continue (par exemple une loi normale). Différentes techniques statistiques pourront imposer par la suite un regroupement en classes des données (tracés d’histogrammes, distance du chi-deux,. . . ). Pour le fabriquant de vêtements, les données brutes sont de peu d’intérêt. Il cherchera au contraire à traduire les observations en tailles vestimentaires, ce qui impose un autre type de regroupement en classes et un modèle discret. 35 Cours de Statistique STA230 2 UJF Grenoble Estimation paramétrique Comment connaît-on la population du globe ? Comment détermine-t-on dans quelles limites se situe le nombre de globules rouges par litre de sang chez un individu en bonne santé ? Comment sait-on combien d’individus sont connectés à internet ? Toutes ces évaluations sont déduites de modèles probabilistes par les techniques statistiques d’estimation paramétrique. La notion importante est celle d’intervalle de confiance, qui permet d’évaluer la précision d’une estimation ponctuelle. 2.1 2.1.1 Estimation ponctuelle Modèles paramétrés Le postulat de modélisation sur lequel toute étude statistique est basée est le suivant : Les données observées sont des réalisations de variables aléatoires. Quand le résultat d’une expérience n’est pas reproductible exactement, on suppose qu’il est la réalisation d’une variable aléatoire. La théorie des probabilités fournit des outils, comme la loi des grands nombres ou le théorème central limite, permettant d’extraire des données ce qui est reproductible et qui pourra donc fonder une prédiction ou une décision. Quand on observe un caractère statistique sur une population, si l’ordre dans lequel on prend les individus n’a pas d’importance, on choisira de considérer que les données sont des réalisations de variables aléatoires indépendantes et de même loi. Cette loi de probabilité décrit la variabilité du caractère. Même dans le cas où les individus ne sont pas interchangeables, comme pour une série chronologique, la modélisation consistera à se ramener, en soustrayant au besoin une fonction déterministe, au cas d’un échantillon de variables aléatoires indépendantes. Définition 19. Soit P une loi de probabilité sur R. On appelle échantillon de la loi P un n-uplet de variables aléatoires indépendantes et de même loi P. Le mot échantillon prend en statistique deux sens différents, selon que l’on parle des données observées ou du modèle probabiliste. L’hypothèse de modélisation consiste à voir l’échantillon (observé) comme une réalisation d’un échantillon (théorique) d’une certaine loi de probabilité P. En d’autres termes, on considère que les données auraient pu être produites en simulant de façon répétée la loi de probabilité P. Pour éviter les confusions, nous désignerons par données ou échantillon observé, la séquence de nombres recueillie (x1 , . . . , xn ). Les échantillons (théoriques) au sens de la définition ci-dessus seront désignés par des majuscules : (X1 , . . . , Xn ). La loi de probabilité P modélisant la variabilité des données n’a aucune réalité physique. Cependant elle est considérée comme un objet caché. Tout se passe comme si on disposait d’un algorithme de simulation de la loi P, sans connaître P elle-même : Les données sont des appels indépendants de cet algorithme. L’objet de l’analyse statistique est d’en extraire toute information utile sur P. Si l’hypothèse de modélisation 36 STA230 Cours de Statistique UJF Grenoble par la loi P est correcte (l’algorithme simule effectivement cette loi), la loi des grands nombres permet d’affirmer que la distribution empirique des données est proche de P, pour un grand échantillon. Mais deux échantillons observés, simulés selon la même loi, ont rarement la même distribution empirique. Afin d’extraire des données des informations reproductibles, on est amené à réduire l’ensemble des lois possibles à une famille particulière de lois de probabilité. On appelle problème d’ajustement le problème consistant à déterminer, dans une famille de lois de probabilité donnée, quelle est celle qui coïncide le mieux avec l’échantillon observé. Dans la situation la plus courante, celle que nous considérons ici, la famille dépend d’un ou plusieurs paramètres réels inconnus. Le problème est donc de déterminer quelle valeur du paramètre est la mieux adaptée aux données, en un sens que nous préciserons plus loin. On parle alors d’estimation paramétrique. Nous donnons ci-dessous quelques exemples courants de situations statistiques, avec des familles de lois communément choisies. Echantillons binaires Typiquement, la situation est celle où un même événement est observé ou non dans une suite d’expériences indépendantes. Si on code les observations par 1 et 0, la modélisation par une loi de Bernoulli s’impose. Le paramètre inconnu est la probabilité de l’événement. On l’approche bien évidemment par sa fréquence expérimentale. Comptages Un échantillon issu de comptages prend des valeurs entières positives. Plusieurs familles de lois classiques peuvent être utilisées comme modèles. Si les objets comptés sont relativement fréquents, dans une population de taille fixée et assez faible, les lois binomiales ou hypergéométriques sont des modèles naturels (nombre de filles dans les fratries de 5 enfants par exemple). Si les objets comptés possèdent un caractère relativement rare dans un grand ensemble (bactéries, individus porteurs d’un gène particulier,. . . ) on utilise souvent une loi de Poisson. Pour des durées mesurées en temps discret (nombres de jours ou de semaines d’incubation pour une maladie) on pourra utiliser une loi géométrique ou binomiale négative. On se laisse souvent guider par la forme de la distribution empirique pour le choix d’un modèle. Un diagramme en bâtons en gros unimodal pourra suggérer de modéliser par une loi binomiale négative, même s’il n’y a pas de raison profonde qui rende ce choix naturel. Variables normales Les lois normales sont de très loin les plus utilisées parmi les modèles probabilistes. Cela tient à deux causes. L’une est qu’elles permettent des calculs explicites faciles, quelle que soit la taille de l’échantillon. En particulier il est fréquent de choisir un modèle normal pour de petits échantillons, sans pouvoir toujours justifier ce choix. L’autre raison tient au théorème central limite : chaque fois qu’une quantité provient du cumul d’un grand nombre de facteurs variables relativement indépendants entre eux, cette quantité pourra être modélisée par une loi normale. C’est le cas pour les erreurs de 37 STA230 Cours de Statistique UJF Grenoble mesures qui ont été la motivation historique de la loi normale, mais aussi pour de très nombreux paramètres physiologiques (tailles, poids, numérations sanguines, dosages hormonaux . . . ). Durées Des durées mesurées en temps continu sont modélisées par des lois de probabilité continues sur R+ . En fiabilité, pour des durées de fonctionnement ou des durées de réparation, les lois de Weibull sont souvent préférées. Les lois exponentielles en sont un cas particulier. Données unimodales asymétriques Comme pour les caractères discrets, le choix d’un modèle pour un caractère continu est souvent guidé par la forme de la distribution empirique. Il arrive que l’histogramme d’un caractère continu soit trop dissymétrique pour qu’on puisse utiliser la loi normale. Plusieurs familles de lois présentent des dissymétries plus ou moins importantes. C’est le cas pour les lois de Weibull, déjà évoquées, mais aussi pour les lois gamma. Quand les ordres de grandeur des données sont très différents, on peut les remplacer par leurs logarithmes. Si le nouvel histogramme coïncide apparemment avec une loi normale, on utilisera une loi log-normale comme modèle pour les données initiales. Dans tout ce qui suit, nous désignerons par Pθ une loi de probabilité dépendant du paramètre inconnu θ. Dans la plupart des exemples, le paramètre θ sera un nombre réel, mais il peut aussi être un entier, ou un couple de réels. 2.1.2 Estimateurs et estimations Quand une famille de lois dépendant du paramètre inconnu θ a été choisie, c’est de l’échantillon et de lui seul que l’on peut tirer les informations. On appelle estimateur du paramètre θ, toute fonction de l’échantillon, prenant ses valeurs dans l’ensemble des valeurs possibles pour θ. Evidemment, cette définition un peu vague cache l’espoir que les valeurs prises par l’estimateur soient proches de la valeur cible θ, qui est et restera inconnue. Il importe de bien distinguer les variables aléatoires, liées à la modélisation, de leurs réalisations, identifiées aux données. Un échantillon (théorique) est un n-uplet de variables aléatoires indépendantes et de même loi Pθ . Pour estimer θ, on propose un estimateur, fonction de l’échantillon : T = τ (X1 , . . . , Xn ) . C’est aussi une variable aléatoire. Le choix du modèle et de l’estimateur T est déconnecté du recueil des données. C’est en quelque sorte une planification que l’on effectue avant toute observation, et qui pourra servir à plusieurs échantillons observés du même phénomène. Une fois un modèle choisi, on considérera un n-uplet de données (x1 , . . . , xn ) comme 38 STA230 Cours de Statistique UJF Grenoble une réalisation des variables aléatoires (X1 , . . . , Xn ). La valeur (réelle) prise par T : θb = τ (x1 , . . . , xn ) , est l’estimation (du paramètre au vu de l’échantillon observé). Prenons l’exemple simple d’une pièce dont on ignore si elle est ou non truquée. La probabilité de tomber sur pile est le paramètre inconnu θ = p. On se propose de réaliser 10 lancers de la pièce, que l’on modélisera par un échantillon de taille 10 de la loi de Bernoulli de paramètre p. Le nombre de pile obtenu sur les 10 lancers est une variable aléatoire qui suit la loi binomiale B(10, p). Le quotient de cette variable aléatoire par 10 (la fréquence) est un estimateur de p. Effectuons maintenant les 10 lancers en notant chaque fois 1 si pile sort, et 0 si c’est face. Une réalisation de l’échantillon est par exemple : 0, 1, 1, 0, 1, 1, 1, 0, 0, 1. Pour cette réalisation, la fréquence empirique prend la valeur 0.6, que l’on proposera comme estimation de p. Bien évidemment, 10 nouveaux lancers de la même pièce pourront conduire à une réalisation différente de l’échantillon, et à une estimation différente de p. 2.1.3 Qualités d’un estimateur Pour un échantillon de taille n de la loi de Bernoulli de paramètre inconnu p, la fréquence empirique est un estimateur de p. C’est une variable aléatoire qui prend ses valeurs dans [0, 1]. Si n est grand, elle prend avec une forte probabilité des valeurs proches de p, d’après la loi des grands nombres. Quel que soit le modèle et le paramètre à estimer, prendre des valeurs proches de ce paramètre au moins pour de grands échantillons, est la qualité principale que l’on attend d’un estimateur. En toute rigueur, on doit considérer une suite d’estimateurs (Tn ), où pour tout n, Tn est une variable aléatoire fonction de l’échantillon (X1 , . . . , Xn ). Par abus de langage, on appelle encore “estimateur” cette suite. Définition 20. On dit que l’estimateur (Tn ) est convergent si pour tout ε > 0 : lim P[|Tn − θ| > ε] = 0 . n→∞ Un estimateur convergent s’écarte donc du paramètre avec une faible probabilité, si la taille de l’échantillon est assez grande. L’exemple de base d’estimateur convergent est la moyenne empirique. Nous noterons X n la moyenne empirique de l’échantillon (X1 , . . . , Xn ) : Xn = X 1 + · · · + Xn . n La loi des grands nombres affirme que X n est un estimateur convergent de l’espérance de X. 39 Cours de Statistique STA230 UJF Grenoble Si le paramètre θ s’exprime comme une fonction continue de E[X], alors l’image de X n par cette fonction est un estimateur convergent de θ, par la proposition suivante. Proposition 5. Soit (Tn ) un estimateur convergent du paramètre θ, et φ une fonction de R dans R, continue au point θ. Alors (φ(Tn )) est un estimateur convergent de φ(θ). Considérons par exemple comme modèle la loi uniforme sur [0, θ], où le paramètre θ est inconnu. La moyenne empirique X n est un estimateur convergent de l’espérance de la loi, qui vaut θ/2. Donc Tn = 2X n est un estimateur convergent de θ. Mais d’autres espérances sont calculables. Par exemple, si X suit la loi uniforme sur [0, θ], alors E[log(X)] vaut log(θ) − 1. Toujours d’après la loi des grands nombres, (log(X1 )+· · ·+log(Xn ))/n est un estimateur convergent de log(θ)−1. Donc l’estimateur Tn0 suivant est encore un estimateur convergent de θ : Tn0 log(X1 ) + · · · + log(Xn ) +1 . = exp n La notion de convergence ne donne aucune assurance pratique que les valeurs prises par un estimateur seront effectivement dans un rayon fixé autour de la vraie valeur du paramètre, pour une taille d’échantillon donnée. On quantifie la qualité des estimateurs par la notion d’erreur quadratique. Définition 21. On appelle erreur quadratique de Tn par rapport à θ la quantité : EQ(Tn , θ) = E[(Tn − θ)2 ] . L’erreur quadratique est liée à la convergence par la proposition suivante. Proposition 6. Si l’erreur quadratique de Tn par rapport à θ tend vers 0 quand n tend vers l’infini, alors (Tn ) est un estimateur convergent de θ. Démonstration : Si |Tn − θ| > ε, alors (Tn − θ)2 > ε2 . Donc : E[(Tn − θ)2 ] > ε2 P[|Tn − θ| > ε] . Si E[(Tn − θ)2 ] tend vers 0, il en est de même de P[|Tn − θ| > ε]. Si deux estimateurs sont disponibles pour le même paramètre θ, on dira que l’un est meilleur que l’autre si son erreur quadratique par rapport à θ est inférieure. Dans l’exemple ci-dessus, l’erreur quadratique de Tn vaut θ2 /(3n), l’erreur quadratique de Tn0 est équivalente à θ2 /n quand n tend vers l’infini, Tn est donc meilleur que Tn0 . Même pour un estimateur convergent, il peut se faire que les valeurs prises soient décalées en moyenne par rapport à la vraie valeur du paramètre. On dit alors que l’estimateur est biaisé. 40 STA230 Cours de Statistique UJF Grenoble Définition 22. On appelle biais de l’estimateur Tn par rapport à θ la quantité : B(Tn , θ) = E[Tn − θ] . L’estimateur est dit sans biais si B(Tn , θ) = 0, il est dit asymptotiquement sans biais si B(Tn , θ) tend vers 0 quand n tend vers l’infini. Proposition 7. L’erreur quadratique de Tn par rapport à θ est la somme de la variance de Tn et du carré du biais. Démonstration : Par linéarité de l’espérance on a : EQ(Tn , θ) = = = = E[(Tn − θ)2 ] E[(Tn − E[Tn ] + E[Tn ] − θ)2 ] E[(Tn − E[Tn ])2 ] + (E[Tn ] − θ)2 + 2(E[Tn ] − θ)(E[Tn − E[Tn ]]) V ar[Tn ] + (B(Tn , θ))2 + 0 . Quand un estimateur est sans biais, l’erreur quadratique est égale à la variance. Le critère suivant, conséquence immédiate des propositions 6 et 7 est souvent utilisé pour démontrer qu’un estimateur est convergent. Proposition 8. Si un estimateur est sans biais ou asymptotiquement sans biais et si sa variance tend vers 0, alors il est convergent. Quand le biais peut être explicitement calculé, on aura évidemment intérêt à le corriger pour améliorer l’estimateur. Reprenons l’exemple de la loi uniforme sur [0, θ]. Un estimateur naturel de θ est la plus grande valeur de l’échantillon : Tn00 = max{X1 , . . . , Xn } . Comme toutes les valeurs Xi sont inférieures à θ, l’estimateur Tn00 sous-estime systématiquement θ. On démontre que son espérance est nθ/(n + 1) et donc son biais vaut −θ/(n+1). On peut corriger le biais en introduisant : n + 1 00 Tn . n Ce nouvel estimateur est sans biais, et il est meilleur que Tn00 . Dans le tableau ci-dessous nous rassemblons les 4 exemples d’estimateurs du paramètre θ pour la loi uniforme U(0, θ), qui ont été introduits jusqu’ici. Le meilleur des quatre est Tn000 . Tn000 = Estimateur Biais Erreur quadratique Tn 0 θ2 /(3n) Tn0 ∼ θ/(2n) ∼ θ2 /n Tn00 ∼ −θ/n ∼ 2θ2 /n2 000 Tn 0 ∼ θ2 /n2 41 Cours de Statistique STA230 2.1.4 UJF Grenoble Exemples d’estimateurs Jusqu’ici nous avons déjà rencontré la moyenne epirique, comme estimateur de l’espérance. Dans le cas particulier de données binaires, la moyenne empirique est la fréquence, l’espérance est la probabilité. Il s’agit d’estimateurs sans biais et convergents. Dans cette section, nous illustrons les notions d’estimateur, de convergence et de biais sur trois autres exemples, l’estimation d’une variance, le problème des questions confidentielles, et les comptages par capture-recapture. Estimateurs de la variance Soit (X1 , . . . , Xn ) un échantillon d’une loi inconnue P, qui sera supposée admettre des moments de tous ordres. Nous avons vu que la moyenne empirique X n = (X1 + · · · + Xn )/n est un estimateur convergent de l’espérance. C’est un estimateur sans biais, et sa variance est égale à la variance de la loi P, divisée par n. Comment estimer la variance de P ? L’estimateur le plus naturel est le suivant. Définition 23. On appelle variance empirique de l’échantillon (X1 , . . . , Xn ) l’estimateur : n 1X (Xi − X n )2 . Sn2 = n i=1 Si X désigne une variable aléatoire de loi P, Sn2 est bien un estimateur convergent de V ar[X] = E[(X − E[X])2 ]. Mais ce n’est pas un estimateur sans biais. En effet : Proposition 9. E[Sn2 ] = n−1 V ar[X] . n 2 Démonstration : Calculons tout d’abord E[X n ]. 2 1 E[(X1 + · · · + Xn )2 ] n2 n n X X 1 X E Xi2 + Xi Xj . = n2 i=1 i=1 j6=i E[X n ] = Par définition d’un échantillon, X1 , . . . , Xn sont indépendantes et de même loi. Donc E[Xi2 ] = E[X 2 ] et E[Xi Xj ] = (E[X])2 , où X est une variable aléatoire quelconque de loi P. En reportant ces valeurs on obtient : 2 1 nE[X 2 ] + n(n − 1)(E[X])2 ) n2 1 n−1 = E[X 2 ] + (E[X])2 . n n E[X n ] = 42 Cours de Statistique STA230 UJF Grenoble On a donc : 1 n−1 1 E[X12 + · · · + Xn2 ] − E[X 2 ] − (E[X])2 ) n n n n−1 n−1 = E[X 2 ] − (E[X])2 ) n n n−1 V ar[X] . = n E[Sn2 ] = Pour transformer Sn2 en un estimateur non biaisé, il suffit de corriger le biais par un facteur multiplicatif. Définition 24. On appelle variance empirique non biaisée l’estimateur : 0 Sn2 = n n 1 X Sn2 = (Xi − X n )2 . n−1 n − 1 i=1 On peut estimer l’écart-type par q q Sn2 ou bien q Sn0 2 . Notons qu’en général aussi bien q q Sn0 2 que Sn2 sont des estimateurs biaisés de V ar[X]. La différence entre les deux estimateurs tend vers 0 quand la taille n de l’échantillon tend vers l’infini. Néanmoins, la plupart des calculatrices proposent les deux estimateurs de l’écart-type (touches σn q 02 02 et σn−1 ). Certains logiciels calculent par défaut la valeur de Sn ou Sn , d’autres Sn2 ou q Sn2 . Dans la suite, nous utiliserons surtout Sn2 , malgré l’inconvénient du biais. Questions confidentielles Certains sujets abordés dans les enquêtes d’opinion sont parfois assez intimes, et on court le risque que les personnes interrogées se refusent à répondre franchement à l’enquêteur, faussant ainsi le résultat. On peut alors avoir recours à une astuce consistant à inverser aléatoirement les réponses. Considérons une question confidentielle pour laquelle on veut estimer la probabilité p de réponses positives. L’enquêteur demande à chaque personne interrogée de lancer un dé. Si le dé tombe sur 6, la personne doit donner sa réponse sans mentir, sinon elle doit donner l’opinion contraire à la sienne. Si l’enquêteur ignore le résultat du dé, il ne pourra pas savoir si la réponse est franche ou non, et on peut espérer que la personne sondée acceptera de jouer le jeu. Généralisons légèrement la situation en tirant pour chaque personne une variable de Bernoulli de paramètre α. Si le résultat de cette variable est 1, la réponse est franche, sinon, elle est inversée. Soit n le nombre de personnes interrogées. L’enquêteur ne recueille que la fréquence empirique Fn des “oui”. La proportion inconnue des “oui” à l’issue de la procédure est q = αp + (1 − α)(1 − p), et la fréquence Fn observée par l’enquêteur est un estimateur sans biais et convergent de q. Remarquons que si α = 1/2, q vaut 1/2 quel que soit p. Mais si α 6= 1/2, on peut exprimer p en fonction de q : p= q−1+α . 2α − 1 43 STA230 Cours de Statistique UJF Grenoble On peut donc proposer comme estimateur de p la quantité suivante : Tn = Fn − 1 + α . 2α − 1 L’espérance de Tn est p. La variance de Tn vaut : α(1 − α) q(1 − q) p(1 − p) + = . 2 n(2α − 1) n n(2α − 1)2 L’estimateur Tn est sans biais, sa variance tend vers 0, il est donc convergent. Pour n fixé, la variance de T tend vers l’infini quand α tend vers 1/2. Elle est minimale si α = 0 ou 1 (mais alors la procédure perd tout son intérêt). Le problème est donc de choisir une valeur de α qui soit assez grande pour que la confidentialité soit crédible, mais suffisamment éloignée de 1/2 pour ne pas trop augmenter la variance de l’estimateur. Pour le dé, la valeur de α est 1/6 et le terme additionnel de la variance est proportionnel à α(1 − α)/(2α − 1)2 = 0.3125. Comptages par capture-recapture Comment estimer le nombre d’espèces d’insectes vivant sur la terre, alors que de nombreuses espèces sont encore inconnues ? Comment connaît-on la population de baleines dans les océans ? Le comptage par capture-recapture permet d’évaluer des tailles de populations pour lesquelles un recensement exhaustif est impossible. La méthode est basée sur une idée simple. Considérons une population, de taille N inconnue. On prélève dans un premier temps un groupe d’individus, de taille m fixée. Ces individus sont recensés et marqués de façon à être reconnus ultérieurement. Plus tard, on prélève un nouveau groupe de taille n, et on observe le nombre X d’individus marqués dans ce nouveau groupe. Si le deuxième prélèvement est indépendant du premier, la loi de X est la loi hypergéométrique de paramètres N , m et n, d’espérance nm/N . On peut s’attendre à ce que la proportion X/n d’individus marqués dans le deuxième échantillon soit proche de la proportion d’individus marqués dans l’ensemble de la population, m/N . Il est donc raisonnable de proposer comme estimateur de N la quantité suivante : nm . T = X L’inconvénient de cet estimateur est qu’il n’est pas défini si X prend la valeur 0, ce qui arrive avec une probabilité strictement positive. On peut corriger ce défaut de deux manières. La première consiste à remplacer X par X + 1, ce qui ne devrait pas fausser trop le résultat si les nombres envisagés sont assez grands. Posons donc : T0 = nm . X +1 La seconde manière consiste à décider de rejeter a priori les échantillons pour lesquels on n’obtiendrait pas d’individu marqué. Ceci revient à remplacer X par une autre variable 44 Cours de Statistique STA230 UJF Grenoble aléatoire X 0 dont la loi est la loi conditionnelle de X sachant que X est strictement positif. Posons donc : nm T 00 = 0 . X Pour des valeurs de N , m et n particulières, on peut calculer numériquement les espérances et les écarts-types de ces estimateurs. Le tableau ci-dessous résume des résultats obtenus pour m = n = 100 et différentes valeurs de N . N 200 0 E[T ] 197.0 q V ar[T 0 ] 13.9 E[T 00 ] 201.0 q 00 V ar[T ] 14.5 300 295.1 34.4 304.2 36.6 400 500 393.1 491.1 60.2 90.7 409.6 517.5 65.6 101.5 1000 5000 981.3 4291.1 309.3 2459.5 1102.0 5767.9 420.2 2995.4 Les deux estimateurs sont biaisés, le premier a tendance à sous-estimer la taille N de la population, le deuxième à la sur-estimer. L’écart-type augmente plus rapidement que N . Il est naturel que la précision relative soit d’autant plus faible que les échantillons recueillis sont petits devant la taille inconnue de la population. 2.2 2.2.1 Intervalles de confiance Intervalles de dispersion L’erreur quadratique mesure la concentration d’un estimateur autour de la valeur du paramètre. Les intervalles de dispersion sont un autre moyen de mesurer la plus ou moins grande concentration d’une loi de probabilité. Ils s’expriment à l’aide de la fonction quantile. Si T est une variable aléatoire, la fonction quantile de la loi de T est la fonction de [0, 1] dans R qui à u ∈ [0, 1] associe : QT (u) = inf{t t.q. P[T 6 t] > u} . Définition 25. Soit T une variable aléatoire et α un réel compris entre 0 et 1. On appelle intervalle de dispersion de niveau 1−α tout intervalle de la forme : [ QT (β), QT (1 − α + β) ] , avec 0 6 β 6 α . En statistique, les réels α compris entre 0 et 1 sont de tradition. La même tradition leur affecte prioritairement les valeurs 0.05 et 0.01, plus rarement 0.02, 0.005 ou 0.001. Il faut donc lire α comme “une faible proportion”, et 1−α comme “une forte proportion”. Un intervalle de dispersion de niveau 1 − α pour T est tel que T appartient à cet intervalle avec probabilité 1−α. Il contient donc une forte proportion des valeurs que prendra T , même s’il est en général beaucoup plus petit que le support de la loi. 45 STA230 Cours de Statistique UJF Grenoble Il existe en général une infinité d’intervalles de dispersion de niveau donné. En voici quelques uns, de niveau 0.99 pour la loi normale N (0, 1). β 0 0.002 0.005 0.008 0.01 QX (β) QX (0.99 + β) −∞ 2.3263 −2.8782 2.4089 −2.5758 2.5758 −2.4089 2.8782 −2.3263 +∞ Selon les valeurs de β, on dit qu’un intervalle de dispersion de niveau 1−α est : • unilatéral inférieur si β = 0, • unilatéral supérieur si β = α, • symétrique si β = α/2, • optimal si son amplitude est la plus courte parmi tous les intervalles de dispersion de niveau 1−α. Déterminer un intervalle de dispersion optimal requiert en général un calcul particulier, sauf dans le cas où la loi est symétrique, comme une loi normale ou une loi de Student. On dit que la loi de X est symétrique si pour tout u ∈ [0, 1], QX (u) − QX (0.5) = QX (0.5) − QX (1 − u) . On démontre que si la loi de X est symétrique, alors l’intervalle de dispersion symétrique est optimal. C’est le cas pour les lois normales et les lois de Student. Les intervalles de dispersion des lois usuelles sont fréquemment utilisés en Statistique, ce qui justifie l’introduction de notations particulières. • uα désignera le réel F −1 (1 − α/2), où F −1 désigne la fonction quantile de la loi N (0, 1). L’intervalle [−uα , uα ] est l’intervalle de dispersion symétrique (donc optimal) pour la loi N (0, 1), de niveau 1 − α. Les valeurs les plus courantes sont uα = 1.96 pour α = 0.05 et uα = 2.5758 pour α = 0.01. • tα désignera le réel QT (n) (1 − α/2), où QT (n) désigne la fonction quantile de la loi de Student à n degrés de liberté (pour une valeur de n fixée). L’intervalle [−tα , tα ] est l’intervalle de dispersion symétrique (donc optimal) pour la loi T (n), de niveau 1 − α. • zα désignera le réel QX 2 (n) (1 − α), où QX 2 (n) désigne la fonction quantile de la loi de khi-deux à n degrés de liberté (pour une valeur de n fixée). L’intervalle [0 , zα ] est donc l’intervalle unilatéral inférieur pour la loi X 2 (n), de niveau 1 − α. • fα désignera le réel QF (m,n) (1 − α), où QF (m,n) désigne la fonction quantile de la loi de Fisher de paramètres m et n (pour des valeurs de fixées). L’intervalle [0 , fα ] est l’intervalle de dispersion unilatéral inférieur pour la loi F(m, n), de niveau 1 − α. A titre d’exemple, nous reprenons l’estimateur Tn00 pour la loi uniforme U(0, θ), à savoir le maximum des valeurs de l’échantillon. Sa fonction quantile est la fonction qui 46 Cours de Statistique STA230 UJF Grenoble loi gamma G(5,0.5) 0.10 0.09 0.08 0.07 0.06 0.05 0.04 0.03 0.02 0.01 0.00 . 0 3 6 9 12 15 18 21 24 27 30 Fig. 10 – Intervalle de dispersion optimal de niveau 0.95 pour la loi gamma G(5, 0.5) (loi du khi-deux de paramètre 10). à u ∈ [0, 1] associe : QTn00 (u) = θ u1/n . Pour α et β 6 α fixés, l’intervalle de dispersion [ QTn00 (β), QTn00 (1 − α + β) ] a pour longueur : θ(1 − α + β)1/n − θβ 1/n . Il se trouve que l’intervalle de dispersion optimal coïncide avec l’intervalle de dispersion unilatéral supérieur (β = α). La borne de gauche est θα1/n , la borne de droite est θ. Voici quelques valeurs pour la quantité α1/n , qui tend vers 1 quand n tend vers l’infini. . n .. α 10 100 1000 0.05 0.741 0.970 0.997 0.01 0.001 0.631 0.501 0.955 0.933 0.995 0.993 Quand la loi de la variable aléatoire T est discrète, la notion d’intervalle de dispersion recèle une certaine ambigüité. Considérons par exemple la loi binomiale B(10, 0.6). Voici les valeurs de sa fonction de répartition. i F (i) 0 0.000 1 0.002 2 0.012 3 0.055 4 0.166 47 5 0.367 6 0.618 7 0.833 8 0.954 9 0.994 10 1 Cours de Statistique STA230 UJF Grenoble Fixons 1−α = 0.9. Pour les calculs utilisant les intervalles de dispersion, on applique toujours un principe de précaution, qui consiste à garantir le niveau. On qualifiera donc d’intervalle de dispersion de niveau 1−α les intervalles dont la probabilité est supérieure ou égale à 1 − α. Le tableau ci-dessous donne une liste d’intervalles de dispersion de niveau > 0.9, avec leur probabilité exacte, pour la loi B(10, 0.6). Intervalle [0, 8] Probabilité 0.954 [1, 8] 0.954 [2, 8] 0.952 [3, 8] 0.941 [4, 9] [4, 10] 0.939 0.945 Deux intervalles sont d’amplitude minimale, [3, 8] et [4, 9]. On choisira celui dont la probabilité est la plus grande, à savoir [3, 8]. La figure 11 représente en fonction de p les intervalles de dispersion optimaux, au sens défini ci-dessus, pour la loi binomiale B(10, p), ainsi que les intervalles de dispersion symétriques. Intervalles de dispersion : loi binomiale 10 9 8 7 6 5 4 3 2 1 . 0 0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0 Fig. 11 – Intervalles de dispersion optimaux (trait plein) et symétriques (pointillés) de niveau > 0.9 pour la loi binomiale B(10, p). 2.2.2 Définitions En statistique, tout comme en physique, en chimie ou en biologie, donner un résultat sans indication sur sa précision n’a que peu d’intérêt car il n’est pas reproductible. Reprenons l’exemple d’un lancer de pièce truquée, pour laquelle la probabilité p de pile est inconnue. La fréquence empirique de pile est l’estimateur naturel de p. Si 48 STA230 Cours de Statistique UJF Grenoble sur 100 lancers on obtient 60 pile, l’estimation (ponctuelle) proposée pour p est 0.60. Mais ce résultat n’est pas reproductible. Si on renouvelle les 100 lancers, on obtiendra probablement des estimations différentes. Plutôt que de donner une estimation ponctuelle, on proposera un intervalle, choisi de manière à contrôler par un niveau de confiance, les chances que le résultat aurait d’être confirmé si on renouvelait l’expérience. On cherche à distinguer les valeurs du paramètre pour lesquelles l’observation (60 pile sur 100 lancers) est plausible, des valeurs pour lesquelles elle est trop peu vraisemblable. Notons F la fréquence empirique et n le nombre de lancers. La variable aléatoire nF suit la loi binomiale B(n, p). Le calcul numérique donne les valeurs suivantes. QB(100,0.523) (0.95) = 60 et QB(100,0.682) (0.05) = 60 . Pour toute valeur de p inférieure à 0.523, la probabilité d’observer sur 100 tirages une fréquence supérieure à 0.60 est inférieure à 0.05. Pour toute valeur de p supérieure à 0.682, la probabilité d’observer sur 100 tirages une fréquence inférieure à 0.60 est inférieure à 0.05. En d’autres termes, pour tout p dans l’intervalle [0.523, 0.682], on a : 60 ∈ [ QB(100,p) (0.05) , QB(100,p) (0.95) ] , c’est-à-dire que 60 est dans l’intervalle de dispersion symétrique de niveau 0.9 pour la loi B(100, p). Il est donc raisonnable de proposer [0.523, 0.682] comme intervalle d’estimation pour la valeur de p. La définition d’un intervalle de confiance est la suivante. Définition 26. Soit (X1 , . . . , Xn ) un échantillon de la loi Pθ . On appelle intervalle de confiance de niveau 1 − α un intervalle aléatoire [T1 , T2 ], où T1 6 T2 sont deux statistiques, fonctions de l’échantillon, telles que : P[ θ ∈ [T1 , T2 ] ] = 1 − α . Si on réalise n simulations indépendantes de la loi Pθ , les variables aléatoires T1 et T2 prendront des valeurs particulières t1 et t2 . L’encadrement θ ∈ [t1 , t2 ] sera alors vrai ou faux. Pour α = 0.05, si on répète 100 fois la série de n expériences pour obtenir 100 intervalles, on peut s’attendre à ce que cinq d’entre eux ne contiennent pas θ. En général, les intervalles de confiance se construisent à partir des intervalles de dispersion d’un estimateur. Soit T un estimateur de θ. Parmi les intervalles de dispersion de T , nous devons effectuer un choix cohérent (le même pour toutes les valeurs de θ). Le plus facile est de considérer l’intervalle de dispersion symétrique : [QT (α/2) , QT (1 − α/2)] . Sauf si la loi de T est symétrique (les intervalles symétriques sont alors optimaux), on obtiendra des résultats plus précis en calculant les intervalles de dispersion optimaux 49 STA230 Cours de Statistique UJF Grenoble (dont l’amplitude est minimale). Ce choix étant effectué, fixons le niveau 1−α et notons [q(θ) , q(θ)] l’intervalle de dispersion pour la loi de T . Pour toute valeur de θ, on a : P[ T ∈ [q(θ) , q(θ)] ] = 1 − α . Si T est un estimateur convergent de θ et la taille de l’échantillon est assez grande, alors q(θ) et q(θ) sont proches de θ. En pratique, si Pθ est une loi continue, ce sont des fonctions strictement croissantes de θ. On peut donc définir leurs inverses q −1 (t) et q −1 (t). Proposition 10. Si q et q sont strictement croissantes, l’intervalle [q −1 (T ) , q −1 (T )] est un intervalle de confiance de niveau 1−α pour θ. Démonstration : La fonction q(θ) étant croissante, on a : θ 6 q −1 (T ) ⇐⇒ T > q(θ) , et de même : θ > q −1 (T ) ⇐⇒ T 6 q(θ) , soit : θ ∈ [q −1 (T ) , q −1 (T )] ⇐⇒ T ∈ [q(θ) , q(θ)] . Ces deux événements étant équivalents, leur probabilité est la même, à savoir 1−α, par définition de l’intervalle de dispersion [q(θ) , q(θ)]. Exemple : loi uniforme sur [0, θ]. Considérons un échantillon (X1 , . . . , Xn ) de la loi U(0, θ), et l’estimateur convergent T = max{X1 , . . . , Xn }. Nous avons vu que l’intervalle de dispersion optimal de niveau 1−α est l’intervalle unilatéral [θα1/n , θ]. On a donc : q(θ) = θα1/n et q(θ) = θ . Ces fonctions sont strictement croissantes et donc inversibles : q −1 (t) = t et q −1 (t) = tα−1/n . L’intervalle [T, T α−1/n ] est un intervalle de confiance de niveau 1−α pour θ. Remarquons que l’amplitude de l’intervalle diminue (la précision augmente) si n et α augmentent (le niveau de confiance diminue). Supposons par exemple que pour 100 tirages de la loi U(0, θ), le maximum T ait pris la valeur 1.23. Pour α = 0.05, la valeur numérique de la borne supérieure est : 1.23 (0.05)−1/100 = 1.267405 . Il est inutile de donner plus de chiffres significatifs que n’en a l’estimation. Les arrondis doivent toujours aller dans le sens de la garantie du niveau de confiance (agrandissement 50 STA230 Cours de Statistique UJF Grenoble de l’intervalle). Les bornes inférieures seront donc arrondies par défaut et les bornes supérieures par excès. Ici, on donnera [1.23, 1.27] comme intervalle de confiance pour θ au niveau 0.95. Quand la loi Pθ est discrète, l’échantillon (X1 , . . . , Xn ) et donc l’estimateur T ne peuvent prendre que certaines valeurs particulières. Dans ce cas, la fonction quantile de T est une fonction en escalier et les fonctions q(θ) et q(θ) ne sont pas strictement croissantes. Pour une loi discrète, le niveau des intervalles de dispersion n’est pas exact. On pourra seulement garantir que : P[ T ∈ [q(θ) , q(θ)] ] > 1 − α . Quand il y a ambigüi té sur la valeur prise par un intervalle de confiance, les choix à effectuer iront toujours vers la garantie du niveau de confiance. La procédure de calcul devra être telle que : P[ θ ∈ [T1 , T2 ] ] > 1 − α. La figure 12 illustre cette procédure pour la situation donnée en exemple au début du paragraphe. Les intervalles de dispersion optimaux pour une fréquence empirique sur un échantillon de taille 100 sont représentés en fonction de p. Si la fréquence de 1 dans l’échantillon est 0.6, l’intervalle de confiance retourné sera celui de la figure, correspondant aux abscisses où la droite horizontale d’ordonnée 0.6 coupe q(p) et q(p). 2.2.3 Echantillons gaussiens Ce paragraphe est consacré à la construction d’intervalles de confiance de la moyenne et de la variance, pour les échantillons gaussiens, autrement dit les échantillons de la loi normale N (µ, σ 2 ). L’avantage de cette situation est que les estimateurs naturels de l’espérance et de la variance ont des lois explicitement calculables. Nous notons (X1 , . . . , Xn ) un échantillon de la loi N (µ, σ 2 ), X sa moyenne empirique et S 2 sa variance empirique : n 1X X= Xi n i=1 n 1X et S = (Xi − X)2 . n i=1 2 Nous rassemblons ci-dessous, et nous admettrons, les trois résultats permettant de calculer les intervalles de confiance de µ et σ 2 . Théorème 4. Si (X1 , . . . , Xn ) est un échantillon de la loi N (µ, σ 2 ), alors : r n 1. X − µ suit la loi normale N (0, 1). σ2 s n−1 2. X − µ suit la loi de Student T (n−1). S2 nS 2 3. suit la loi du khi-deux X 2 (n−1). σ2 51 Cours de Statistique STA230 UJF Grenoble Loi binomiale B(100,p) 1.0 frequence 0.9 q(p) 0.8 q(p) 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0.0 p . 0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0 Fig. 12 – Intervalles de dispersion optimaux et intervalle de confiance de niveau > 0.9 pour la loi binomiale B(100, p). Les deux premières affirmations servent à estimer l’espérance µ, respectivement dans le cas où la variance σ 2 est connue et dans le cas où elle est inconnue. Commençons par supposer que σ 2 est connue. Posons uα = QN (0,1) (1 − α/2). L’intervalle de dispersion optimal de niveau 1−α pour la loi N (0, 1) est [−uα , uα ]. Deux valeurs de uα sont très souvent utilisées : pour 1 − α = 0.95 et 0.99, uα vaut respectivement 1.96 et 2.5758. D’après le point 1 du théorème 4, on a : r P n X − µ ∈ [−uα , uα ] = 1 − α . σ2 Or : r s s n σ2 σ2 X − µ ∈ [−u , u ] ⇐⇒ X − µ ∈ −u , u α α α α σ2 n n s ⇐⇒ µ ∈ X − uα L’intervalle : X s − uα s σ2 σ2 , X + uα , n n 52 s σ2 σ2 , X + uα . n n Cours de Statistique STA230 UJF Grenoble est donc un intervalle de confiance de niveau 1−α pour µ. Le cas où σ 2 est inconnu se traite de la même façon, en remplaçant la loi N (0, 1) par la loi T (n − 1). C’est encore une loi symétrique, pour laquelle l’intervalle de confiance optimal de niveau 1−α est de la forme [−tα , tα ], où : tα = QT (n−1) (1 − α/2) . Le même raisonnement conduit à l’intervalle de confiance suivant pour µ : s X − tα s S2 S2 , X + tα . n−1 n−1 Passons maintenant à l’estimation de σ 2 à partir de S 2 . La loi du khi-deux X 2 (n−1) n’est pas symétrique, et l’intervalle de dispersion symétrique n’est pas optimal. Nous noterons uα et vα deux réels positifs tels que [uα , vα ] soit un intervalle de dispersion de niveau 1−α pour la loi X 2 (n−1). On pourra calculer l’intervalle de dispersion optimal par une procédure d’optimisation numérique, ou bien prendre l’intervalle symétrique : uα = QX 2 (n−1) (α/2) et vα = QX 2 (n−1) (1 − α/2) . D’après le point 3 du théorème 4, on a : # " nS 2 ∈ [uα , vα ] = 1 − α . P σ2 Or : nS 2 ∈ [uα , vα ] ⇐⇒ σ 2 ∈ σ2 L’intervalle 2.2.4 h nS 2 vα , nS 2 uα i " nS 2 nS 2 , vα uα # . est donc un intervalle de confiance de niveau 1−α pour σ 2 . Normalité asymptotique La construction des intervalles de confiance nécessite de connaître la loi des estimateurs à partir desquels ils sont construits. En dehors du cas des échantillons gaussiens, ce n’est pas toujours possible. De plus, il est fréquent que les calculs de lois, effectivement implémentables pour de petits échantillons, deviennent infaisables pour un échantillon de grande taille. On cherche alors à remplacer la loi de l’estimateur par une approximation plus simple, permettant de construire des intervalles de confiance dont le niveau n’est garanti que pour de grandes tailles d’échantillons. Définition 27. Soit (X1 , . . . , Xn ) un échantillon de la loi Pθ . Pour tout n, soient T1,n 6 T2,n deux statistiques, fonction de l’échantillon (X1 , . . . , Xn ). On dit que [T1,n , T2,n ] est un intervalle de confiance, de niveau asymptotique 1−α pour θ, si : lim P[θ ∈ [T1,n , T2,n ] ] = 1 − α . n→∞ 53 Cours de Statistique STA230 UJF Grenoble Le plus souvent, cette notion est utilisée quand on dispose d’un estimateur convergent de θ dont la loi est asymptotiquement normale, ce qui est en général une conséquence du théorème central limite. Nous traitons tout d’abord le cas de l’estimation de l’espérance. Théorème 5. Soit (X1 , . . . , Xn ) un échantillon d’une loi de probabilité d’espérance µ, de variance σ 2 . Soit X n sa moyenne empirique et Sn2 sa variance empirique. Posons : r Zn = n (X n − µ) σ2 et Zn0 s = n (X n − µ) . Sn2 Les lois des variables aléatoires Zn et Zn0 convergent vers la loi normale N (0, 1). Ce résultat, qui est une reformulation du théorème central limite classique, permet de définir des intervalles de dispersion approchés pour Zn et Zn0 . Fixons le niveau 1−α, et notons [−uα , uα ] l’intervalle de dispersion optimal de la loi N (0, 1). Alors : lim P[ Zn ∈ [−uα , uα ] ] = lim P[ Zn0 ∈ [−uα , uα ] ] = 1 − α . n→∞ n→∞ On en déduit immédiatement deux intervalles de confiance, de niveau asymptotique 1−α pour µ : Xn s − uα σ2 n s , X n + uα σ2 n et Xn s − uα Sn2 n s , X n + uα Sn2 n . En pratique, la taille de l’échantillon, même grande, est toujours fixée. Dans l’utilisation de la normalité asymptotique, la question se pose évidemment de la qualité de l’approximation normale à n fixé. À partir de quelle valeur de n est-il légitime de remplacer une loi exacte par son approximation normale pour un calcul d’intervalle de confiance ? Il est impossible de donner des bornes valables dans toutes les situations. On pourra retenir que pour une taille d’échantillon supérieure ou égale à 100, l’approximation normale conduit à des erreurs inférieures ou égales à 1%, et nous la considèrerons donc comme légitime. À titre d’exemple, voici l’application de cette technique à l’estimation d’une probabilité. Nous reprenons l’exemple de jeu de pile ou face avec une pièce truquée. Supposons que cette fois-ci nous avons lancé 100 fois la pièce, et qu’elle est tombée 60 fois sur pile. Pour la modélisation, nous considérons des variables aléatoires X1 , . . . , Xn , avec n = 100. Pour i allant de 1 à n, la variable aléatoire Xi code le résultat observé : 0 si le i-ième lancer a donné face, 1 s’il a donné pile. Le n-uplet (X1 , . . . , Xn ) constitue un échantillon de la loi de Bernoulli de paramètre p, où p est la probabilité (inconnue) que la pièce tombe sur pile. Rappelons que : E[Xi ] = p et V ar(Xi ) = p(1 − p) . 54 Cours de Statistique STA230 UJF Grenoble Nous sommes donc dans le cas où l’espérance et la variance sont toutes deux inconnues. L’espérance est estimée par : Xn = 1 (X1 + · · · + Xn ) . n C’est la fréquence empirique de pile. Pour alléger les formules, nous la noterons f . La variance empirique de l’échantillon est : Sn2 = 1 2 (X + · · · + Xn2 ) − f 2 = f − f 2 = f (1 − f ) , n 1 car les Xi valent toutes 0 ou 1, donc Xi2 = Xi . L’application du théorème central limite nous donne l’intervalle de confiance suivant, de niveau 1 − α pour p. f s − uα s f (1 − f ) f (1 − f ) , f + uα . n n Pour 1 − α = 0.95, uα = 1.96. Pour n = 100 et f = 0.6, la calculatrice donne l’intervalle [0.50398 , 0.69602]. Il n’est pas très raisonnable de donner autant de chiffres significatifs : l’aproximation normale pour une telle taille d’échantillon conduit à une imprécision de l’ordre du centième. Deux chiffres significatifs suffisent donc. Attention au sens de l’arrondi pour les deux bornes. Par principe, on souhaite garantir un niveau de confiance au moins égal à 1 − α, donc remplacer l’intervalle trouvé par un intervalle qui le contienne. On doit donc : • arrondir par défaut la borne inférieure, • arrondir par excès la borne supérieure. Ici, nous remplacerons [0.50398 , 0.69602] par [0.50 , 0.70]. Une approximation rapide à calculer est souvent utile. Puisque f est une fréquence, elle est comprise f ) est inférieure ou égale q entre 0 et 1, et la variance empirique f (1 −q à 1/4 ; donc f (1 − f ) 6 1/2. Au niveau 0.95, le produit uα f (1 − f ) est majoré par √ √ 1. L’intervalle [f − 1/ n , f + 1/ n] est donc un intervalle de confiance de niveau au moins égal à 0.95 pour une probabilité estimée par la fréquence f . La prochaine fois que vous entendrez que sur √ un échantillon de 3000 personnes, 49.5% pensent ceci ou cela, souvenez vous que 1/ 3000 ' 0.02, et déduisez-en que la précision sur le résultat que l’on vous annonce est de ±2%. 55 STA230 3 Cours de Statistique UJF Grenoble Tests statistiques Les tests statistiques sont le moyen de valider ou réfuter des hypothèses de modélisation probabilistes. Ils visent à distinguer ce qui est plausible de ce qui est trop peu vraisemblable, dans le cadre d’un modèle donné. Les notions de seuil, de région de rejet et de p-valeur sont essentielles et doivent être comprises. Elles seront appliquées aux tests les plus classiques portant sur la valeur d’un paramètre, la comparaison de deux échantillons ou l’ajustement de données observées à un modèle théorique. 3.1 3.1.1 Statistiques de test Modèles probabilistes réfutables Supposons qu’un laboratoire souhaite mettre sur le marché un nouveau médicament. Avant de le proposer à l’ensemble de la population, une série d’essais cliniques sont effectués. Ils visent à observer l’effet du médicament sur un groupe de malades. Pour simplifier, supposons que le nouveau médicament ait guéri 87 malades dans un groupe de 100. Par ailleurs, on sait qu’en moyenne 74% des malades guérissent sans traitement. L’amélioration est-elle suffisante pour lancer le médicament ? On ne pourra prendre une décision qu’en supposant que les 100 individus observés sont représentatifs de l’ensemble des personnes que l’on aura à traiter, et que les résultats auraient été peu différents sur un autre groupe. La modélisation consiste à supposer que les réactions des individus aux traitements sont des réalisations de variables aléatoires. C’est le postulat de base en statistique : Les données observées sont des réalisations de variables aléatoires. Une série de données statistiques se présente sous la forme d’un n-uplet de valeurs, observées sur une certaine population d’individus. La modélisation intervient quand on souhaite utiliser ces valeurs pour émettre des conclusions destinées à des individus pour lesquels les observations n’ont pas encore été faites. La théorie des probabilités fournit des outils, comme la loi des grands nombres ou le théorème central limite, permettant d’extraire des données ce qui est reproductible et qui pourra donc fonder une prédiction ou une décision. Une fois admis le postulat de base, les hypothèses de modélisation sont des affirmations portant sur la loi de probabilité du n-uplet de variables aléatoires modélisant les observations. Selon les situations, quelques-unes de ces hypothèses paraîtront naturelles et ne seront pas soumises à validation. Par exemple, quand on observe un caractère statistique sur une population, si l’ordre dans lequel on prend les individus n’a pas d’importance, on choisira de considérer que les données sont des réalisations de variables aléatoires indépendantes et de même loi, à savoir un échantillon (théorique). Dans le cas du nouveau médicament à tester, on considérera que les individus sont indépendants et que leur réponse (guérison ou non) est une variable binaire (1 ou 0). On est donc ramené à un échantillon d’une loi de Bernoulli. L’hypothèse que le laboratoire 56 STA230 Cours de Statistique UJF Grenoble cherche à valider est que le paramètre de la loi de Bernoulli (probabilité de guérison) pour le nouveau médicament est supérieur à 0.74, qui est la probabilité de guérison sans traitement (supposée connue). Toute démarche scientifique consiste à proposer des théories, qui sont ensuite confirmées ou réfutées. Une théorie émet des prédictions sur le résultat d’expériences ou de mesures futures. Qu’une seule de ces prédictions s’avère fausse, et c’est toute la théorie qui est réfutée. En revanche, une prédiction qui s’avère exacte ne fait que conforter la théorie, qui ne pourra jamais être définitivement prouvée. En statistique les théories sont des modèles probabilistes, qui en général ne peuvent pas être réfutés : aucun résultat observé n’est jamais totalement incompatible avec le modèle. Dans le cas du médicament, il n’est pas impossible que par le fait du hasard, aucun des individus traités ne guérisse. C’est seulement très peu vraisemblable. Comme il serait suspect, mais pas exclu, que tous les individus guérissent sans exception. L’objet des tests statistiques est de distinguer ce qui est plausible de ce qui est trop peu vraisemblable. Les prédictions émises par une théorie en sont des conséquences particulières. Considérons par exemple la situation où on souhaite tester un générateur pseudo-aléatoire au vu des valeurs qu’il retourne. En pratique, un générateur pseudo-aléatoire calcule les termes successifs d’une suite itérative déterministe. Ces valeurs doivent se comporter comme des “réels au hasard entre 0 et 1”. Cette phrase cache en fait le modèle probabiliste suivant : les valeurs retournées par le générateur sont des réalisations de variables aléatoires indépendantes et de même loi, uniforme sur [0 , 1]. Ce modèle probabiliste a une infinité de conséquences testables. Par exemple si le modèle est correct, sur 100 appels, le nombre de ceux compris entre 0.4 et 0.9 suit la loi binomiale B(100, 0.5). Il n’est pas totalement exclu de n’en observer aucun, mais c’est très improbable (probabilité 1/2100 ). Si sur 100 appels du générateur, aucun n’était compris entre 0.4 et 0.9, on aurait donc de bonnes raisons de mettre en doute le modèle. Mais si le nombre d’appels entre 0.4 et 0.9 est de 46, tout ce qu’on pourra dire c’est que ce résultat est plausible. Cela peut renforcer notre confiance dans le modèle, mais cela ne présage pas du résultat d’autres tests : aucun test statistique ne pourra jamais démontrer que le modèle testé est le bon, ni qu’il est le seul possible. En résumé, la situation est la suivante. Les données observées sont modélisées par des variables aléatoires (X1 , . . . , Xn ). Toute fonction des Xi s’appelle une statistique. En particulier, la décision que l’on prendra au vu des données est une statistique binaire (rejet ou non). Les hypothèses portent sur la loi conjointe des Xi . On cherche à tester une hypothèse particulière, qui porte traditionnellement le nom d’hypothèse nulle, et que l’on notera H0 . Dans l’exemple du test sur l’efficacité d’un médicament, l’hypothèse nulle pourrait être que le médicament n’a pas plus d’effet que l’ancien. Pour un n-uplet d’appels d’un générateur pseudo-aléatoire, l’hypothèse nulle sera que la présence d’un appel entre 0.4 et 0.9 suit la loi de Bernoulli de paramètre 0.5. Un test est une décision prise au vu des données, pour laquelle on contrôle la probabilité de rejeter H0 à tort. 57 Cours de Statistique STA230 UJF Grenoble Définition 28. Un test de seuil α pour l’hypothèse H0 est une statistique binaire (rejet ou non de H0 ), telle que : PH0 [ Rejet de H0 ] = α . L’hypothèse H0 entraîne la connaissance de la loi d’une certaine variable aléatoire, appelée statistique de test. Par exemple, si un médicament n’a pas d’effet, l’hypothèse nulle entraîne que le nombre de guérisons observées sur n individus suit la loi binomiale B(n, p0 ), où p0 = 0.74 est la probabilité (supposée connue) de guérison sans traitement. Pour n appels d’un générateur pseudo-aléatoire, le nombre d’appels entre 0.4 et 0.9 suit la loi B(n, 0.5). Reste ensuite à distinguer parmi les valeurs de la statistique de test, celles qui sont plausibles de celles qui sont trop peu vraisemblables. Ceci fait l’objet du paragraphe suivant. 3.1.2 Règles de décision Un modèle probabiliste a donc été choisi, qui fait des données observées des réalisations de variables aléatoires. Notons (x1 , . . . , xn ) les données et (X1 , . . . , Xn ) les variables aléatoires qui les modélisent. Sur la loi de ces variables aléatoires, un certain nombre d’hypothèses sont émises et ne seront pas remises en cause. Une hypothèse particulière H0 doit être testée. Dans notre exemple du test d’un nouveau médicament, nous supposons que le résultat observé sur chaque malade (guérison ou non) suit une loi de Bernoulli, et que les résultats sur différents malades sont indépendants. Nous ne remettrons pas en cause ces hypothèses. Par contre l’hypothèse H0 “le paramètre est égal à 0.74” doit être testée. La décision va porter sur la valeur prise par une certaine fonction τ des données : T = τ (X1 , . . . , Xn ) . Dans le modèle, T est une variable aléatoire, la statistique de test. Elle est choisie de sorte que sa loi de probabilité sous l’hypothèse H0 est connue. Nous notons cette loi P0 . Si les xi sont des réalisations des Xi , alors t = τ (x1 , . . . , xn ) est la valeur prise par T . Le test consiste à rejeter l’hypothèse H0 quand la valeur t est trop peu vraisemblable pour P0 . Pour la loi de probabilité P0 , les valeurs les plus plausibles sont contenues dans ses intervalles de dispersion. Ils s’expriment à l’aide de la fonction quantile. Si T est une variable aléatoire, la fonction quantile de la loi de T est la fonction de [0 , 1] dans R qui à u ∈ [0 , 1] associe : QT (u) = inf{t t.q. P[T ≤ t] ≥ u} . C’est l’inverse de la fonction de répartition. Les fonctions quantiles, comme les fonctions de répartition de toutes les lois usuelles sont disponibles dans les environnements de calcul courants. 58 STA230 Cours de Statistique UJF Grenoble Un intervalle de dispersion de niveau 1−α pour T est tel que T appartient à cet intervalle avec probabilité 1−α. Il contient donc une forte proportion des valeurs que prendra T , même s’il est en général beaucoup plus petit que le support de la loi. Un test consistera à rejeter l’hypothèse H0 si la valeur prise par la statistique de test est en dehors d’un intervalle de dispersion de niveau donné. Proposition 11. Soit H0 une hypothèse et α un réel compris entre 0 et 1. On définit un test de seuil α pour H0 par la règle de décision : Rejet de H0 ⇐⇒ T ∈ / Iα , où : • T est une statistique de test, • Iα est un intervalle de dispersion de niveau 1−α pour la loi de T sous H0 . Le complémentaire de Iα s’appelle la région de rejet. Nous la noterons Wα . Si H0 est vraie, le seuil α est la probabilité que la valeur prise par T soit en dehors de Iα , et donc que H0 soit rejetée à tort : PH0 [ Rejet de H0 ] = α . Nous avons laissé jusqu’ici une grande latitude quant au choix de l’intervalle de dispersion. Les intervalles les plus utilisés sont symétriques ou unilatéraux. Définition 29. On dit qu’un test est : • unilatéral si la région de rejet est le complémentaire d’un intervalle de dispersion unilatéral. • bilatéral si la région de rejet est le complémentaire d’un intervalle de dispersion symétrique. Dans le cas de l’efficacité d’un médicament, avec le nombre de guérisons comme statistique de test, on choisira un test unilatéral (le traitement est inefficace si la fréquence de guérison est trop faible, efficace si elle est suffisamment grande). Pour tester un générateur pseudo-aléatoire, avec le nombre d’appels entre 0.4 et 0.9 comme statistique de test, on rejettera aussi bien les valeurs trop grandes que trop petites, et le test sera bilatéral. Nous résumons dans la définition suivante les trois types de tests usuels. Définition 30. Soit H0 l’hypothèse nulle, α le seuil, T la statistique de test et Q0 sa fonction quantile sous l’hypothèse H0 . 1. Le test bilatéral (rejet des valeurs trop écartées) est défini par la règle de décision : Rejet de H0 ⇐⇒ T ∈ / [Q0 (α/2) , Q0 (1−α/2)] . 59 STA230 Cours de Statistique UJF Grenoble 2. Le test unilatéral à droite (rejet des valeurs trop grandes) est défini par la règle de décision : Rejet de H0 ⇐⇒ T > Q0 (1−α) . 3. Le test unilatéral à gauche (rejet des valeurs trop petites) est défini par la règle de décision : Rejet de H0 ⇐⇒ T < Q0 (α) . Supposons que la statistique de test T suive sous H0 la loi binomiale B(100, 0.5), comme dans l’exemple du générateur pseudo-aléatoire. L’intervalle de dispersion symétrique de niveau α = 0.05 est [40 , 60]. Le test bilateral de seuil 0.05 consistera à rejeter H0 si la statistique de test prend une valeur inférieure à 40 ou supérieure à 60. Pour la loi binomiale, comme pour d’autres, on peut choisir d’utiliser l’approximation normale : si n est assez grand, la loi B(n, p) est proche de la loi normale de même espérance et de même variance. Ici, la loi de T est proche de la loi N (50, 25). L’intervalle de dispersion symétrique de niveau 0.95 pour cette loi est [40.2 , 59.8]. D’après cet intervalle, on devrait aussi rejeter les valeurs 40 et 60. Les quantiles de la loi N (50, 25) ne sont pas tabulés. Pour les calculer, on se ramène à la loi N (0, 1), en remplaçant la statistique de test T par sa valeur centrée réduite : T − 50 . T0 = √ 25 La variable T 0 suit la loi N (0, 1), le test bilatéral de seuil 0.05 consiste à rejeter toute valeur à l’extérieur de l’intervalle de dispersion [−1.96 , +1.96]. C’est évidemment équivalent au fait de rejeter les valeurs de T à l’extérieur de l’intervalle [40.2 , 59.8]. D’autres transformations sont possibles. Si T 0 suit la loi N (0, 1), alors T 00 = (T 0 )2 suit la loi du khi-deux X 2 (1). Rejeter les valeurs de T 0 à l’extérieur de l’intervalle [−1.96 , +1.96] est équivalent à rejeter les valeurs de T 00 supérieures à (1.96)2 = 3.841, qui est effectivement le quantile d’ordre 0.95 de la loi X 2 (1). Remarquons qu’un test bilatéral sur la statistique T 0 est équivalent à un test unilatéral à droite sur la statistique T 00 . Reprenons l’exemple du médicament qui a guéri 83 individus sur 100, et pour lequel nous voulons savoir si la probabilité de guérison est ou non meilleure que 0.74. Nous allons donc appliquer un test unilatéral : nous observons une amélioration (83% de guérisons au lieu de 74% attendues) et nous voulons savoir si cette amélioration est suffisamment grande pour être significative. Sous l’hypothèse H0 , le nombre T d’individus guéris parmi 100 suit la loi binomiale B(100, 0.74). Toujours en utilisant l’approximation normale, la variable aléatoire suivante suit la loi N (0, 1) : T − 74 . T0 = q 100(0.74(1 − 0.74)) L’intervalle de dispersion unilatéral à gauche de niveau 0.01 est ] − ∞ , 2.3263]. En d’autres termes si une variable aléatoire doit suivre la loi N (0, 1), nous rejetterons 60 Cours de Statistique STA230 UJF Grenoble comme “trop grande” au seuil 0.01, toute valeur supérieure à 2.3263. Au seuil 0.05, nous rejetterons toute valeur supérieure à 1.6449. Ici T prend la valeur 83 et T 0 la valeur 2.0518 : c’est trop grand au seuil 0.05 (rejet de H0 ), mais ce n’est pas trop grand au seuil 0.01. Certes il y a eu une amélioration, mais on ne peut pas tout à fait exclure qu’elle soit due au hasard. Nous verrons au paragraphe suivant un moyen de donner une indication plus précise. Nous présenterons quelques exemples de tests, parmi les plus classiques. Nous ne préciserons pas toujours s’il s’agit de tests bilatéraux ou unilatéraux. L’important est de décrire l’hypothèse H0 , la statistique de test T et sa loi sous H0 . Décider si le test doit être unilatéral à gauche ou à droite ou bien bilatéral est le plus souvent affaire de bon sens. 3.1.3 Seuil et p-valeur La définition 11 du paragraphe précédent fait apparaître le seuil comme la probabilité α, fixée a priori, que le test rejette l’hypothèse H0 à tort : PH0 [ Rejet de H0 ] = α . Une fois les données recueillies, la valeur prise par la statistique de test sera calculée, et la réponse sera binaire : rejet ou non de H0 . On préfère souvent garder l’information contenue dans la valeur de la statistique de test, en retournant le seuil limite auquel H0 aurait été rejetée, compte tenu de l’observation. Prenons l’exemple (fréquent) d’une hypothèse H0 sous laquelle la statistique de test T suit la loi normale N (0, 1). La règle de rejet pour le test bilatéral de seuil 0.05 est : Rejet de H0 ⇐⇒ T ∈ / [−1.96 , +1.96] . Supposons que la valeur prise par T soit 2.72. L’hypothèse H0 sera donc rejetée. Mais elle serait également rejetée au seuil 0.01. En fait elle serait rejetée pour n’importe quel seuil supérieur à 0.00653, ce qui est un renseignement plus précis qu’une simple réponse binaire. Définition 31. Soit H0 l’hypothèse nulle, T la statistique de test et F0 sa fonction de répartition sous l’hypothèse H0 . On suppose que F0 est continue. 1. Pour un test bilatéral (rejet des valeurs trop écartées) la p-valeur d’une valeur t prise par T est : ( p(t) = 2F0 (t) si F0 (t) < 0.5 , 2(1 − F0 (t)) si F0 (t) ≥ 0.5 . 2. Pour un test unilatéral à droite (rejet des valeurs trop grandes) la p-valeur d’une valeur t prise par T est : p(t) = 1 − F0 (t) . 61 STA230 Cours de Statistique UJF Grenoble 3. Pour un test unilatéral à gauche (rejet des valeurs trop petites) la p-valeur d’une valeur t prise par T est : p(t) = F0 (t) . Cependant calculer une p-valeur pour un test bilatéral est assez artificiel. Au vu de la valeur prise par T , on aura tendance à effectuer plutôt un test unilatéral visant à décider si la valeur observée est trop grande ou trop petite. Pour une statistique de test suivant la loi N (0, 1), la valeur 2.72 est clairement à droite de la distribution. Le problème ne se pose plus de savoir si elle est trop petite, mais plutôt si elle est significativement trop grande. En pratique, pour une statistique de test de fonction de répartition F0 sous H0 , on définira souvent la p-valeur de la valeur t par : p(t) = min{F0 (t) , 1−F0 (t)} . La connaissance de la p-valeur rend inutile le calcul préalable de la région de rejet : si p(t) est la p-valeur d’une observation t sous l’hypothèse H0 , on obtient un test de seuil α par la règle de rejet : Rejet de H0 ⇐⇒ p(T ) < α . Dans le cas continu, ceci revient à remplacer la statistique T par F0 (T ) ou 1 − F0 (T ). Sous l’hypothèse H0 , ces deux statistiques suivent la loi uniforme U(0, 1). Quand la statistique de test est discrète, il faut inclure la valeur observée dans l’intervalle dont on calcule la probabilité. Pour un test unilatéral à gauche, cela n’induit pas de changement : F0 (t) est la probabilité que T soit inférieure ou égale à t. Pour un test unilatéral à droite sur une variable à valeurs dans N (le cas le plus fréquent) il faudra calculer 1 − F0 (t−1). Supposons par exemple que la loi de T soit la loi binomiale B(100, 0.5), la p-valeur de 60 est la probabilité que T soit supérieure ou égale à 60, à savoir : 1 − FB(100,0.5) (59) = 0.0284 . Reprenons l’exemple du paragraphe précédent : sur 100 malades, le médicament en a guéri 83, à comparer avec le pourcentage de guérison sans traitement de 74%. Sous l’hypothèse H0 , le nombre de guérisons suit la loi binomiale B(100, 0.74). La probabilité qu’une variable aléatoire de loi B(100, 0.74) prenne une valeur supérieure ou égale à 83 est : 1 − FB(100,0.74) (82) = 0.0227 . Si comme dans le paragraphe précédent, on utilise l’approximation normale, le calcul donne : 83 − 74 = 1 − F (2.0518) = 0.0201 . 1 − F q 100(0.74(1 − 0.74)) 62 Cours de Statistique STA230 3.1.4 UJF Grenoble Risques et puissance Jusqu’ici nous n’avons testé qu’une seule hypothèse de modélisation H0 . La seule erreur qui pouvait être quantifiée consistait à rejeter H0 à tort. La probabilité de cette erreur est le seuil α du test. Ne pas rejeter H0 signifie seulement que rien ne s’est produit qui permette de la mettre en doute. Cela ne signifie pas que H0 soit “vraie” (les lois de probabilité n’existent pas dans la nature). Nous allons nous placer désormais dans une situation où deux modèles sont en compétition. Les données disponibles devront nous permettre de prendre une décision sur H0 , par référence à une autre hypothèse H1 . On dit alors qu’on teste H0 contre H1 . Prenons l’exemple d’un indicateur physiologique T (taux d’une certaine substance dans le sang) dont une valeur élevée est un symptôme d’une certaine maladie. Comme d’habitude, on considérera que le taux observé sur un individu est la réalisation d’une certaine variable aléatoire. Supposons que des études antérieures aient montré que chez un sujet sain, la valeur de T suit la loi N (1, 0.09), alors que chez un sujet malade, elle suit la loi N (2, 0.16). Si la maladie est peu grave, et que le traitement comporte des risques pour le patient, le médecin choisira de privilégier l’hypothèse que son patient est en bonne santé : ce sera son hypothèse nulle H0 . Elle sera testée par un test unilatéral à droite (rejet des valeurs de T trop grandes). Au seuil α = 0.05, la règle de décision est : Rejet de H0 ⇐⇒ T > l0 = QN (1,0.09) (0.95) = 1.493 . On décidera donc que le patient est malade si son taux est supérieur à l0 = 1.493. Le seuil α mesure le risque de rejeter H0 à tort (déclarer malade un individu sain). Mais un autre risque consiste à ne pas rejeter H0 alors que H1 est vraie (ne pas diagnostiquer la maladie alors que le patient est effectivement atteint). On note β la probabilité correspondante : β = PH1 [ Ne pas rejeter H0 ] . Ici la loi de T sous l’hypothèse H1 est la loi normale N (2, 0.16) et donc : β = FN (2,0.16) (l0 ) = 0.1027 . Rejeter H0 à tort est l’erreur de première espèce et le seuil α est le risque de première espèce. Ne pas rejeter H0 à tort est l’erreur de deuxième espèce et la probabilité β de cette erreur est le risque de deuxième espèce. La probabilité 1−β de rejeter H0 sous H1 s’appelle la puissance du test. Comme nous l’avons montré en exemple, il se peut que le risque de deuxième espèce β soit assez important, alors que le seuil α est fixé en définissant le test. L’erreur de première espèce est celle que l’on choisit de maîtriser, quitte à ignorer le risque de deuxième espèce. Cela induit une dissymétrie dans le traitement des deux hypothèses. La règle de rejet du test est définie uniquement à partir de α et H0 . Entre deux alternatives, on choisira pour H0 l’hypothèse qu’il serait le plus grave de rejeter à tort. 63 STA230 Cours de Statistique UJF Grenoble Reprenons l’exemple du diagnostic mais supposons maintenant que la maladie est potentiellement très grave, mais facilement soignable. Le danger serait de ne pas la détecter. Le médecin choisira comme hypothèse nulle l’hypothèse que le patient est atteint. H00 : T suit la loi N (2, 0.16) . Le test sera cette fois unilatéral à gauche (rejet des valeurs trop faibles). Au seuil α = 0.05, la règle de décision est : Rejet de H00 ⇐⇒ T < l1 = QN (2,0.16) (0.05) = 1.342 . On constate que l1 est inférieur à l0 . Ce test est donc différent du précédent. Selon la valeur de T , les décisions peuvent coïncider ou non. • Si T < l1 : acceptation de H0 et rejet de H00 , les décisions sont cohérentes. • Si l1 < T < l0 : acceptation de H0 et de H00 , résultat non interprétable. • Si T > l0 : rejet de H0 et acceptation de H00 , les décisions sont cohérentes. 3.2 3.2.1 Tests paramétriques classiques Échantillons gaussiens Les données observées sont modélisées par un échantillon de la loi normale N (µ, σ 2 ) dont l’espérance µ et la variance σ 2 sont a priori inconnues. Sous ces hypothèses, des résultats théoriques précisent les lois des estimateurs naturels de µ et σ 2 que sont la moyenne et la variance empiriques. Ce sont les mêmes que pour les intervalles de confiance. Nous les rappelons. Théorème 6. Soit (X1 , . . . , Xn ) un échantillon de la loi N (µ, σ 2 ). On note : n 1X Xi la moyenne empirique, • X= n i=1 n 1X • S2 = (Xi − X)2 la variance empirique. n i=1 Alors r : n 1. X − µ suit la loi normale N (0, 1). σ2 s n−1 2. X − µ suit la loi de Student T (n−1). S2 nS 2 3. suit la loi du khi-deux X 2 (n−1). σ2 Le point 1 permet de tester des hypothèses portant sur la valeur de µ, quand σ est connu. C’est la situation typique du contrôle de qualité. Considérons une machine destinée à la fabrication de comprimés devant peser 1 gramme. Aucun comprimé, s’il est mesuré au microgramme près, ne pèse 1 gramme exactement. Les poids des comprimés 64 STA230 Cours de Statistique UJF Grenoble sont en moyenne de 1g, avec un écart-type lié aux caractéristiques de la machine, qui est connu (par exemple σ = 0.01g). Le contrôle de qualité consistera à prélever périodiquement un échantillon de comprimés dont on calcule le poids moyen pour tester qu’il ne s’écarte pas trop de la valeur de référence. Par exemple, si sur un échantillon de 10 comprimés on observe un poids moyen de 0.995, la statistique de test prend la √ valeur 10(0.995 − 1)/0.01 = −1.581, dont la p-valeur par rapport à la loi normale N (0, 1) est : FN (0,1) (−1.581) = 0.0569 . Si la variance est inconnue, on peut utiliser le point 2 de la même manière. Reprenons les mêmes données en supposant que l’écart-type de 0.01 a été observé. La statistique √ de test prend la valeur 9(0.995 − 1)/0.01 = −1.5, dont la p-valeur par rapport à la loi de Student T (9) est : FT (9) (−1.5) = 0.0839 . On peut utiliser le point 3 pour tester la valeur de l’écart-type. Toujours sur un échantillon de 10 comprimés, supposons qu’on ait observé un écart-type de 0.013. On souhaite tester si cette valeur est significativement trop grande par rapport à la valeur de référence σ = 0.01. La statistique de test prend la valeur 10(1.3)2 = 16.9. Pour la loi de khi-deux X 2 (9), la p-valeur correspondante est : 1 − FX 2 (9) (16.9) = 0.0503 . 3.2.2 Test sur la moyenne d’un grand échantillon Dans le cas d’un échantillon de grande taille, le théorème central limite permet d’affirmer que la moyenne empirique suit approximativement une loi normale, sans qu’il y ait besoin de supposer que l’échantillon est gaussien. Théorème 7. Soit (X1 , . . . , Xn ) un échantillon d’une loi de probabilité quelconque, d’espérance µ et de variance σ 2 finies. On note : n 1X Xi la moyenne empirique, • X= n i=1 n 1X • S2 = (Xi − X)2 la variance empirique. n i=1 Quand n tend vers l’infini, la loi de la variable aléatoire : √ X −µ n √ S2 converge vers la loi normale N (0, 1). On utilise ce résultat pour tester les valeurs de l’espérance, exactement comme pour un échantillon gaussien. 65 STA230 Cours de Statistique UJF Grenoble Considérons par exemple des durées de vie de composants électroniques. En général, elles ont des distributions très dissymétriques, et leurs histogrammes sont loin de ressembler à une courbe en cloche : on ne peut pas considérer qu’elles suivent des lois normales. Imaginons que le constructeur garantisse une durée de vie moyenne de 1000 heures. Un organisme indépendant doit valider cette affirmation. Cet organisme observe la durée de vie de 200 composants, et calcule une durée de vie moyenne de 943 heures, avec un écart-type de 267 heures. Est-ce suffisant pour mettre en doute la parole du constructeur ? Avec n = 200, X1 , . . . , Xn sont les durées de vie des n composants, X prend la valeur 943 et S 2 (la variance empirique) prend la valeur 2672 . Sous l’hypothèse H0 (le point de vue du constructeur), l’espérance des Xi est µ = 1000. La valeur prise par la variable centrée réduite est : √ 943 − 1000 200 = −3.019 , 267 et la p-valeur pour le test unilatéral à gauche (rejet des valeurs trop faibles) est F (−3.019) = 0.0013 : c’est une mauvaise nouvelle pour le constructeur ! 3.2.3 Test sur la valeur d’un quantile Ici, le modèle de base est celui d’un échantillon d’une loi inconnue P . Les n données sont donc supposées être des réalisations de variables aléatoires indépendantes, de même loi P . Dans un premier temps, l’hypothèse H0 portera sur la valeur d’un quantile de P. Prenons le cas d’un traitement censé faire baisser le taux de cholestérol. Pour chaque individu i d’un groupe de patients, la différence Xi entre le taux après et avant traitement est mesurée. Certaines de ces différences sont négatives (diminutions), d’autres positives (augmentations). L’hypothèse H0 est que le traitement n’a pas d’effet significatif. On rejettera H0 (on décidera que le traitement est efficace) si suffisamment de baisses ont été observées. Si H0 est vraie, la médiane de la loi P des Xi est nulle. En effet, si le médicament n’a aucun effet, il y a autant de chances d’observer une hausse qu’une baisse, et la différence est donc positive ou négative avec probabilité 1/2. Prenons pour statistique de test le nombre de baisses : T = n X I(−∞,0] (Xi ) , i=1 La notation IA (x) désignant la fonction indicatrice de l’ensemble A, qui vaut 1 si x ∈ A et 0 sinon. et T suit la loi binomiale B(n, 0.5). Nous généralisons la situation à la valeur d’un quantile quelconque. Proposition 12. Soit (X1 , . . . , Xn ) un échantillon de la loi P , de fonction quantile Q. Soit u ∈]0, 1[ un réel fixé. Considérons l’hypothèse nulle : H0 : Q(u) = q0 , 66 Cours de Statistique STA230 UJF Grenoble où q0 est un réel fixé. Soit T le nombre d’éléments de l’échantillon inférieurs à q0 : T = n X I(−∞,q0 ] (Xi ) . i=1 Sous l’hypothèse H0 , T suit la loi binomiale B(n, u). Le cas particulier où u = 0.5 et q0 = 0, présenté en exemple ci-dessus, porte le nom de test des signes. Supposons que sur 46 individus on ait observé 29 baisses du taux de cholestérol. La p-valeur correspondante est : p(29) = 1 − FB(46,0.5) (28) = 0.0519 . Pour un échantillon de grande taille, on peut remplacer la loi binomiale par son approximation normale. Sous H0 , la statistique centrée réduite : T − nu , T0 = q nu(1−u) suit la loi normale N (0, 1). Dans l’exemple ci-dessus, T 0 prend la valeur 1.7693. La p-valeur correspondante est : 1 − FN (0,1) (1.7693) = 0.0384 . 3.2.4 Échantillons appariés Dans le même type de situation que celle du paragraphe précédent, on peut se poser la question de la variation en moyenne d’un même caractère, sur les mêmes individus, avant et après traitement. Par exemple, on a mesuré le taux de cholestérol avant et après administration d’un nouveau médicament à 46 individus. Au lieu de se contenter de compter le nombre de baisses, comme dans le paragraphe précédent, on recueille les 46 valeurs des différences, ce qui est une information plus précise. L’hypothèse nulle (le traitement n’a pas d’effet), entraîne que les valeurs avant et après traitement ont la même distribution, donc leurs espérances sont égales ou bien encore la diffërence est d’espérance nulle. Nous disposons donc d’un échantillon de valeurs d’une variable aléatoire D (la différence “avant-après”), d’espérance µ inconnue, et nous voulons tester l’hypothèse nulle “µ = 0”. Si l’échantillon est de petite taille, on le supposera gaussien et on utilisera la loi de Student (point 2. du théorème 4). S’il est de taille suffisante, on utilisera le théorème 7 pour se ramener à la loi normale. Supposons que sur les 46 individus, on ait observé une différence moyenne des taux de cholestérol de -12mg/dl, avec un écart-type de 20mg/dl. Si on suppose l’échantillon gaussien et qu’on utilise la loi de Student, √ X n − 1√ S2 67 Cours de Statistique STA230 UJF Grenoble prend la valeur −4.0249, et la p-valeur correspondante est : FT (45) (−4.0249) = 0.0001079 . Si on utilise l’approximation normale, √ X n√ S2 prend la valeur −4.0694, et la p-valeur correspondante est : FN (0,1) (−4.0249) = 0.0000024 . Quelle que soit la manière de calculer, nous conclurons que la baisse est significative. 3.3 3.3.1 Comparaison d’échantillons indépendants Test de Fisher Les tests de Fisher et Student servent à comparer les moyennes et les variances de deux échantillons, supposés gaussiens et indépendants. Prenons l’exemple d’un traitement destiné à diminuer le taux de cholestérol. Des taux sont mesurés sur une population témoin sans traitement, puis sur des individus ayant reçu un traitement. Le taux moyen avec traitement est inférieur (du moins l’espère-t-on) au taux moyen du groupe témoin. La question est de savoir si la différence observée est suffisante pour rejeter l’hypothèse H0 que le traitement n’a pas d’effet. Pour le modèle probabiliste, on considère deux échantillons indépendants : • (X1 , . . . , Xnx ) est un échantillon de la loi N (µx , σx2 ), • (Y1 , . . . , Yny ) est un échantillon de la loi N (µy , σy2 ). On note : ny nx 1 X 1 X Yj les moyennes empiriques, Xi et Y = • X= nx i=1 ny j=1 ny nx 1 X 1 X (Xi − X)2 et Sy2 = (Yj − Y )2 les variances empiriques. • Sx2 = nx i=1 ny j=1 Le résultat théorique permettant de comparer les moyennes empiriques suppose que l’on fasse l’hypothèse que les variances théoriques σx2 et σy2 sont égales. Le but du test de Fisher est de tester cette hypothèse : H0 : σx2 = σy2 . Dans un échantillon gaussien, le rapport de la variance empirique à la variance théorique, multiplié par la taille de l’échantillon, suit une loi du khi-deux. Le rapport pondéré de deux variables aléatoires suivant des lois du khi-deux indépendantes suit une loi de Fisher. 68 Cours de Statistique STA230 UJF Grenoble Théorème 8. Le rapport : nx Sx2 nx − 1 σx2 ny Sy2 ny − 1 σy2 suit la loi de Fisher F(nx −1, ny −1). La statistique du test de Fisher est : T = nx S2 nx −1 x ny S2 ny −1 y . Si H0 est exacte, T suit la loi F(nx −1, ny −1). On rejettera H0 si la valeur observée pour T est trop grande ou trop petite. C’est donc un test bilatéral dont la règle de rejet au seuil α est : Rejet de H0 ⇐⇒ T ∈ / [ QF (nx −1,ny −1) (α/2) , QF (nx −1,ny −1) (1 − α/2) ] . Supposons que sur les 30 patients du groupe témoin on ait observé un taux de cholestérol moyen de 240mg/dl avec un écart-type de 40mg/dl. Sur les 20 patients du groupe traité, on a observé un taux moyen de 210mg/dl avec un écart-type de 50mg/dl. La statistique du test de Fisher prend la valeur 0.629, qui correspond à une p-valeur (pour le test bilatéral) de : 2FF (29,19) (0.629) = 0.2538 . On acceptera donc l’hypothèse d’égalité des variances. 3.3.2 Test de Student Sous l’hypothèse d’égalité des variances, le théorème suivant permet d’évaluer les différences entre moyennes empiriques. Théorème 9. Si σx = σy , la variable aléatoire : √ nx + ny − 2 (X − Y ) − (µx − µy ) q 1 nx + q 1 ny nx Sx2 + ny Sy2 suit la loi de Student T (nx + ny − 2). Ce résultat permet de tester l’hypothèse : H0 : µx = µy , en comparant la valeur prise par la statistique : √ nx + ny − 2 (X − Y ) q 1 nx + 1 ny q nx Sx2 + ny Sy2 69 , , Cours de Statistique STA230 UJF Grenoble aux quantiles de la loi de Student T (nx + ny − 2). Cette procédure porte le nom de test de Student. Supposons encore que sur les 30 patients du groupe témoin on ait observé un taux de cholestérol moyen de 240mg/dl avec un écart-type de 40mg/dl. Sur les 20 patients du groupe traité, on a observé un taux moyen de 210mg/dl avec un écart-type de 50mg/dl. Nous avons vu que le test de Fisher permet d’accepter l’hypothèse d’égalité des variances. La statistique du test de Student prend la valeur 2.30, soit une p-valeur de : 1 − FT (48) (2.30) = 0.0129 . On rejette H0 au seuil α = 0.05, la baisse est déclarée significative. 3.3.3 Normalité asymptotique L’hypothèse de normalité, sous laquelle les tests de Fisher et Student sont valides n’est pas toujours vérifiée. Pour des échantillons de grande taille, le théorème central limite assure la normalité asymptotique des moyennes empiriques. Le résultat suivant ne suppose ni que les échantillons sont gaussiens ni que leurs variances sont égales. Théorème 10. Quand nx et ny tendent vers l’infini, la loi de la variable aléatoire : (X − Y ) − (µx − µy ) r Sx2 nx + Sy2 ny , converge vers la loi normale N (0, 1). Reprenons les données de l’exemple précédent. La statistique : X −Y r Sx2 nx + Sy2 ny , prend la valeur 2.246, dont la p-valeur par rapport à la loi N (0, 1) est : 1 − FN (0,1) (2.246) = 0.0123 . En pratique, il est prodent de réserver l’approximation normale aux valeurs de nx et ny au moins égales à 100. 3.4 3.4.1 Test d’ajustement Distance du khi-deux Le test du khi-deux concerne uniquement les lois discrètes, mais on peut l’utiliser aussi pour des échantillons continus regroupés en classes. Le modèle de base est toujours 70 STA230 Cours de Statistique UJF Grenoble un échantillon (X1 , . . . , Xn ) d’une loi inconnue. Les classes, notées c1 , . . . , cr , sont une partition de l’ensemble des valeurs possibles. L’hypothèse à tester porte sur les probabilités des classes, pour lesquelles on se donne des valeurs théoriques P0 (c1 ) . . . , P0 (cr ). H0 : P[Xi ∈ ck ] = P0 (ck ) , ∀k = 1, . . . , r . Sous l’hypothèse H0 , la distribution empirique de l’échantillon sur les classes doit être proche de la distribution théorique. La distribution empirique est celle des fréquences de l’échantillon dans les classes : Pb (c n 1X Ic (Xi ) . k) = n i=1 k On mesure l’adéquation de la distribution empirique à la distribution théorique par la distance du khi-deux. Définition 32. On appelle distance du khi-deux de Pb par rapport à P0 , et on note Dχ2 (P0 , Pb ), la quantité : Dχ2 (P0 , Pb ) = r X (P0 (ch ) − Pb (ch ))2 . P0 (ch ) h=1 La “distance” du khi-deux est donc une moyenne pondérée d’écarts quadratiques entre les valeurs de P0 et Pb . Ce n’est pas une distance au sens usuel du terme, puisqu’elle n’est même pas symétrique. La loi de probabilité de Dχ2 (P0 , Pb ) n’a pas d’expression explicite en général. On utilise le résultat suivant. Théorème 11. Sous l’hypothèse H0 , la loi de la variable aléatoire nDχ2 (P0 , Pb ) converge quand n tend vers l’infini, vers la loi du khi-deux de paramètre r−1. Si l’hypothèse H0 est fausse, alors la variable nDχ2 (P0 , Pb ) tend vers l’infini. C’est donc un test unilatéral à droite que l’on appliquera (rejet des trop grandes valeurs). En pratique, la statistique du test du khi-deux se calcule sous la forme suivante : T = nDχ2 = r X (nth (ch ) − nob (ch ))2 , nth (ch ) h=1 où : • nth (ch ) est l’effectif théorique de la classe ch , à savoir le produit nP0 (Ch ), • nob (ch ) est l’effectif observé de la classe ch . 71 Cours de Statistique STA230 UJF Grenoble L’exemple classique d’application du test est l’expérience de Mendel. Chez les pois, le caractère couleur est codé par un gène présentant deux formes allèles C et c, correspondant aux couleurs jaune et vert. Le jaune est dominant, le vert récessif. La forme, rond ou ridé, est portée par un autre gène à deux allèles R (dominant) et r (récessif). Si on croise deux individus dont le génotype est CcRr, on peut obtenir 16 génotypes équiprobables. Les descendants seront jaunes et ronds dans 9 cas sur 16, jaunes et ridés dans 3 cas sur 16, verts et ronds dans 3 cas sur 16, verts et ridés dans 1 cas sur 16. Dans ses expériences, Mendel a obtenu les résultats suivants. Jaune Rond Effectif 315 b 0.567 P (ch ) P0 (ch ) 9/16 Jaune Ridé 101 0.182 3/16 Vert Vert Rond Ridé 108 32 0.194 0.058 3/16 1/16 La valeur prise par la statistique nDχ2 est 0.47. D’après le théorème 11, la région de rejet doit être calculée par référence à la loi de khi-deux X 2 (3). Par exemple, au seuil 0.05, on devrait rejeter les valeurs supérieures à QX 2 (3) (0.95) = 7.81. La p-valeur de 0.47 est 1 − FX 2 (3) (0.47) = 0.925. Le résultat est donc tout à fait compatible avec H0 , et même un peu trop : nombreux sont ceux qui pensent que Mendel a pu arranger les résultats pour qu’ils coïncident aussi bien avec sa théorie ! L’exemple suivant concerne 10000 familles de 4 enfants pour lesquelles on connaît le nombre de garçons, entre 0 et 4. Le modèle le plus simple qu’on puisse proposer est que les naissances sont indépendantes, les deux sexes étant équiprobables. L’hypothèse nulle est donc que la loi du nombre de garçons pour une famille de 4 enfants suit la loi binomiale B(4, 0.5). Les fréquences observées et théoriques sont les suivantes. Garçons 0 b P (ch ) 0.0572 P0 (ch ) 1/16 1 0.2329 4/16 2 0.3758 6/16 3 0.2632 4/16 4 0.0709 1/16 La valeur prise par la statistique nDχ2 (P0 , Pb ) est 34.47. D’après le théorème 11, la région de rejet doit être calculée par référence à la loi de khi-deux de paramètre 5−1 = 4. Par exemple, au seuil 0.05, on devrait rejeter les valeurs supérieures à QX 2 (4) (0.95) = 9.49. La p-valeur de 34.47 est 1 − FX 2 (4) (34.47) = 5.97 10−7 . On peut donc rejeter l’hypothèse H0 . 3.4.2 Pratique du test Le théorème 11 n’est qu’un résultat asymptotique. On ne peut l’utiliser que pour des tailles d’échantillons au moins de l’ordre de la centaine. De plus l’approximation qu’il décrit est d’autant moins bonne que les probabilités des classes sont faibles. Comme règle empirique, on impose parfois que l’effectif théorique nP (ck ) de chaque classe soit 72 STA230 Cours de Statistique UJF Grenoble au moins égal à 8. Pour atteindre cet objectif, on peut être amené à effectuer des regroupements de classes, consistant à former une nouvelle classe par la réunion de plusieurs anciennes. Les fréquences empiriques et les probabilités théoriques s’ajoutent alors. Le test du khi-deux est souvent utilisé pour tester l’ajustement à une famille particulière dépendant d’un ou plusieurs paramètres. Dans ce cas, on est amené à estimer le paramètre à partir des données. Le théorème 11 n’est alors plus tout à fait valable. Si on a estimé h paramètres par la méthode du maximum de vraisemblance, à partir des fréquences des différentes classes, on doit remplacer la loi X 2 (r−1) par la loi X 2 (r−1−h). Reprenons l’exemple du nombre de garçons dans les familles de 4 enfants, mais pour tester cette fois-ci l’hypothèse nulle : H0 : le nombre de garçons suit une loi binomiale B(4, p) . Le paramètre p est inconnu et doit être estimé. L’estimateur du maximum de vraisemblance (qui maximise la probabilité des données observées) est ici le nombre total de garçons parmi les 40000 enfants. On trouve : pb = 0.5144 . On applique alors le test, mais avec une distribution théorique calculée en tenant b compte de la valeur estimée du paramètre : la loi B(4, p). Garçons 0 Pb (ch ) 0.0572 P0 (ch ) 0.0556 1 0.2329 0.2356 2 0.3758 0.3744 3 0.2632 0.2644 4 0.0709 0.0700 La valeur prise par la statistique nDχ2 est maintenant 0.9883. Elle doit être comparée aux valeurs de la loi du khi-deux de paramètre 5 − 1 − 1 = 3. La p-valeur de 0.9883 est 1 − FX 2 (3) (0.9883) = 0.8041, ce qui montre que le résultat est tout à fait compatible avec l’hypothèse H0 . En comparant les résultats des deux tests précédents, on peut accepter l’idée que les naissances sont indépendantes, mais la proportion de garçons est significativement supérieure à 0.5. On est souvent amené à estimer des paramètres à partir des données non groupées, ou par une autre méthode que le maximum de vraisemblance. Dans ce cas, on ne dispose pas de résultat théorique clair. La valeur limite à partir de laquelle on devra rejeter l’hypothèse H0 au seuil α est comprise entre QX 2 (r−1−h) (1 − α) et QX 2 (r−1) (1 − α). En pratique, après avoir calculé la valeur t prise par nDχ2 (P0 , Pb ) en tenant compte de h paramètres estimés, une attitude prudente consistera à : • rejeter H0 si t > QX 2 (r−1) (1 − α) , • ne pas rejeter H0 si t < QX 2 (r−1−h) (1 − α) , • ne pas conclure si QX 2 (r−1−h) (1 − α) < t < QX 2 (r−1) (1 − α) . 73 Cours de Statistique STA230 3.5 Test d’indépendance 3.5.1 Tableau de contingence UJF Grenoble Le tableau de contingence est un moyen particulier de représenter simultanément deux caractères observés sur une même population, s’ils sont discrets ou bien continus et regroupés en classes. Les deux caractères sont x et y, la taille de l’échantillon est n. Les modalités ou classes de x seront notées c1 , . . . , cr , celles de y sont notées d1 , . . . , ds . On note : • nhk l’effectif conjoint de ch et dk : c’est le nombre d’individus pour lesquels x prend la valeur ch et y la valeur dk , P • nh• = sk=1 nhk l’effectif marginal de ch : c’est le nombre d’individus pour lesquels x prend la valeur ch , P • n•k = rh=1 nhk l’effectif marginal de dk : c’est le nombre d’individus pour lesquels y prend la valeur dk . On représente ces valeurs dans un tableau à double entrée, dit tableau de contingence : x\y c1 .. . d1 . . . dk . . . ds n11 . . . n1k . . . n1s .. .. .. . . . ch nh1 . . . nhk . . . nhs .. .. .. .. . . . . cr nr1 . . . nrk . . . nrs total n•1 . . . n•k . . . n•s total n1• .. . nh• .. . nr• n Chaque ligne et chaque colonne correspond à un sous-échantillon particulier. La ligne d’indice h est la répartition sur d1 , . . . , ds , des individus pour lesquels le caractère x prend la valeur ch . La colonne d’indice k est la répartition sur c1 , . . . , cr , des individus pour lesquels le caractère y prend la valeur dk . En divisant les lignes et les colonnes par leurs sommes, on obtient sur chacune des distributions empiriques constituées de fréquences conditionnelles. Pour h = 1, . . . , r et k = 1, . . . , s, on les notera : fk|h = nhk nh• et fh|k = nhk . n•k Ces distributions empiriques conditionnelles s’appellent les profils-lignes et profilscolonnes. Voici un exemple : les données proviennent de 137 patients atteints de cirrhose. A certaiens d’entre eux est administré un certain traitement, pendant que les autres reçoivent un placebo. Les stades d’évolution de la maladie sont codés de 1 à 3. Le caractère X est le traitement, à deux modalités c1 (placebo) et c2 (traitement). Le caractère Y est le stade d’évolution, d1 = 1 ou d2 = 2 ou d3 = 3. Voici la table de 74 Cours de Statistique STA230 UJF Grenoble contingence observée. Stade 1 2 3 Total placebo 13 29 26 68 traitement 16 37 16 69 Total 29 66 42 137 L’enjeu principal est d’étudier la dépendance des deux caractères. Dans notre exemple, on souhaiterait savoir si les patients sous traitement sont dans des stades moins avancés de la maladie. Voici les deux profils-lignes. Stade 1 2 3 Total placebo 0.191 0.426 0.382 1 traitement 0.232 0.536 0.232 1 Total 0.212 0.482 0.306 1 Effectivement, la proportion de patients dans le stade 3 est moins forte parmi les patients sous traitement. Mais est-ce significatif ? 3.5.2 Khi-deux de contingence Deux caractères sont indépendants si la valeur de l’un n’influe pas sur les distributions des valeurs de l’autre. Si c’est le cas, les profils-lignes seront tous peu différents de la distribution empirique de y, et les profils-colonnes de celle de x : nhk n•k nh• nhk et fh|k = . ≈ f•k = ≈ fh• = fk|h = nh• n n•k n C’est équivalent à dire que les fréquences conjointes doivent être proches des produits de fréquences marginales : nh• n•k nhk fhk = ≈ fh• f•k = . n n n Les fréquences conjointes d’une part, et les produits de fréquences marginales d’autre part, constituent deux distributions de probabilité sur l’ensemble produit {c1 , . . . , cr }× {d1 , . . . , ds }. Un des moyens de quantifier leur proximité est de calculer la distance du khi-deux de l’une par rapport à l’autre. Dans ce cas particulier, on parle de khi-deux de contingence. Proposition 13. La distance du khi-deux de contingence de la distribution empirique (fhk ) à la distribution théorique (fh• f•k ) vaut : D χ2 = r X s X (fhk − fh• f•k )2 fh• f•k h=1 k=1 = −1 + r X s X n2hk . h=1 k=1 nh• n•k 75 Cours de Statistique STA230 UJF Grenoble Démonstration : La première expression est l’application directe de la définition 32. Pour passer à la seconde, on développe le carré. D χ2 r X s X r X s r X s 2 X X fhk = −2 fhk + fh• f•k h=1 k=1 fh• f•k h=1 k=1 h=1 k=1 = r X s X 2 fhk −2 +1 h=1 k=1 fh• f•k = −1 + r X s X n2hk . h=1 k=1 nh• n•k La distance du khi-deux vaut 0 si les deux caractères sont indépendants. Elle est maximale s’il existe une dépendance systématique. Supposons r = s et y = f (x), pour une certaine fonction bijective f . Sur chaque ligne et chaque colonne du tableau de contingence, une seule case est non nulle et la distance du khi-deux vaut (r−1). Voici le calcul pour l’exemple du paragraphe précédent. Dχ2 = −1 + 132 292 262 162 372 162 + + + + + = 0.02667 . 29 × 68 66 × 68 42 × 68 29 × 69 66 × 69 42 × 69 D’après ce qui a été dit précédemment, pour n assez grand, on peut approcher la loi de nDχ2 par une loi du khi-deux, dont le paramètre est le nombre de classes moins 1, diminué du nombre de paramètres estimés à partir des données groupées en classes. Ici, ce sont les fréquences marginales qui ont été estimées. Il y en a r−1 pour le caractère X, et s − 1 pour le caractère Y (la dernière est le complément à 1 de la somme des autres). Le paramètre de la loi du khi-deux sera donc : rs − 1 − (r − 1) − (s − 1) = (r − 1)(s − 1) . Dans l’exemple des patients atteints de cirrhose, nous avons trouvé une valeur de la distance du khi-deux de 0.02667, pour une table à r = 2 lignes et s = 3 colonnes. La statistique de test, nDχ2 prend la valeur 3.654, à comparer à la loi du khi-deux à (3 − 1) × (2 − 1) = 2 degrés de liberté. La p-valeur correspondante est de 0.161 : insuffisant pour rejeter l’hypothèse d’indépendance. Voici un nouvel exemple. Il s’agit de deux caractères binaires, concernant des malades, pour lesquels on a observé s’il ont ou non une tendance suicidaire (caractère X). Leurs maladies ont été classées en “psychoses” et “névroses” (caractère Y). On souhaite savoir s’il y a une dépendance entre les tendances suicidaires et le classement des malades. Supposons que la table de contingence observée soit : psychoses névroses total tendance sans tendance 20 180 60 140 80 320 76 total 200 200 400 STA230 Cours de Statistique UJF Grenoble La distance du khi-deux de contingence, calculée à partir de cette table est 0.0625. La valeur prise par la statistique nDX 2 est 25, que l’on doit comparer à la loi X 2 (1). La p-valeur est de : 1 − FX 2 (1) (25) = 5.733 10−7 . On rejette donc l’hypothèse nulle, et on conclut qu’il y a une dépendance entre la tendance suicidaire et la classification des maladies. Le test ne précise pas le sens de cette dépendance. Pour la décrire, il faut comparer les proportions de suicidaires parmi les névrosés (60/200) et parmi les psychotiques (20/200). 77 STA230 4 Cours de Statistique UJF Grenoble Régression linéaire Ce chapitre porte sur les relations entre deux caractères statistiques, observés sur une même population. La droite de regression met en relief une relation linéaire entre les deux caractères. Dans le cas d’échantillons gaussiens, des résultats théoriques permettent de déterminer les intervalles de confiance des différents paramètres d’une régression. Ils permettent aussi d’établir des intervalles de prédiction, ainsi que de tester le fait qu’une corrélation existe effectivement entre les caractères. 4.1 4.1.1 Régression linéaire simple Représentations graphiques Il est fréquent que plusieurs caractères soient observés sur la même population. Dans une enquête d’opinion, les personnes sondées peuvent avoir à répondre simultanément à plusieurs dizaines de questions. Sur un échantillon sanguin, on mesure couramment une dizaine de variables (numérations globulaires, taux de cholestérol,. . . ). Une étude descriptive de chaque caractère pris séparément permet de résumer les caractéristiques de leurs distributions empiriques. Pour concentrer sur un même graphique l’ensemble des distributions empiriques, on peut tracer parallèlement le diagramme en boîte de chacun des caractères. Mais étudier les caractères séparément ne fournit aucune indication sur leurs relations éventuelles : on oublie que les échantillons ont été recueillis sur les mêmes individus. Le problème consiste donc à étudier simultanément les caractères sans perdre l’information qu’ils ont été observés sur les mêmes individus. Si plusieurs caractères x, y, z, . . . ont été mesurés sur une même population, on peut voir les données xi , yi , zi , . . . correspondant à un individu i comme les coordonnées d’un point dans Rd , où d est le nombre de caractères. L’ensemble de ces points constitue un “nuage de points” dans Rd . Pour d = 2 ou d = 3, on peut représenter graphiquement ce nuage de points (figure 13). Au-delà c’est impossible et on est obligé de le projeter sur des sous-espaces de dimension 2 ou 3. Les différentes techniques de projection sont l’objet de l’“analyse multidimensionnelle de données” (analyse discriminante, analyse en composantes principales, analyse factorielle des correspondances, etc. . . ). Dans le cas où 2 caractères quantitatifs x et y sont observés, on peut regrouper leurs valeurs en classes et représenter en perspective un histogramme bidimensionnel : l’ensemble des couples de valeurs est partitionné en rectangles au-dessus desquels on représente un parallélépipède dont le volume est la fréquence empirique du rectangle, à savoir le nombre de couples (xi , yi ) qui appartiennent au rectangle, divisé par la taille de l’échantillon. Si l’un des caractères est qualitatif, par exemple x, tracer un histogramme bidimensionnel n’a pas vraiment de sens. On préfère souvent superposer des histogrammes unidimensionnels des valeurs de y, pour chacune des modalités de x. Si x est binaire et y continu, par exemple x est le sexe et y est l’âge, on représente souvent le caractère quantitatif en ordonnée et on trace deux histogrammes horizontaux en vis à vis, obtenant ainsi une “pyramide des âges”. 78 Cours de Statistique STA230 30 Poids + 28 + + ++ + 24 + +++ + + + +++ + + + ++ + + + + + 20 + ++ + + + + +++ + + + + + + + + 22 16 + + ++ + + 26 18 UJF Grenoble ++ + + + + + + + + + + + + ++ + + + + + + + + + + + + + + + + + + + + + + + 14 12 Tailles 10 100 102 104 106 108 110 112 114 116 118 120 122 124 126 128 130 Fig. 13 – Nuage de points : tailles et poids d’enfants de 6 ans. 4.1.2 Covariance Soient x et y deux caractères quantitatifs mesurés sur n individus, on peut considérer l’échantillon bidimensionnel comme un nuage de n points dans R2 . Rappelons la définition des moyennes empiriques : 1 1 x = (x1 + · · · + xn ) et y = (y1 + · · · + yn ) , n n et des variances empiriques : 1 1 s2x = (x21 + · · · + x2n ) − x2 et s2y = (y12 + · · · + yn2 ) − y 2 . n n Différentes caractéristiques statistiques permettent de résumer l’information contenue dans la forme du nuage de points. Si x et y désignent les moyennes empiriques des deux caractères, le point (x, y) est le centre de gravité du nuage. Les variances empiriques s2x et s2y traduisent la dispersion des abscisses et des ordonnées. Pour aller plus loin dans la description, il faut calculer la covariance. Définition 33. On appelle covariance empirique de x et y, et on note cxy , la quantité : cxy = n 1X (xi − x)(yi − y) . n i=1 Cette définition étend celle de la variance dans la mesure où s2x = cxx . La covariance est symétrique (cxy = cyx ) et bilinéaire : si x et x0 sont deux échantillons de taille n, a et a0 deux réels et x∗ = ax + a0 x0 , alors : cx∗ y = acxy + a0 cx0 y . Pour le calcul pratique, on utilise la formule suivante : 79 Cours de Statistique STA230 UJF Grenoble Proposition 14. La covariance de x et y s’écrit : cxy n 1X = xi y i − x y . n i=1 La covariance est la moyenne des produits moins le produit des moyennes. Démonstration : Il suffit de développer les produits : cxy = = n 1X (xi − x)(yi − y) n i=1 n 1X (xi yi − xyi − xi y + x y) n i=1 = n 1X xi yi − x y . n i=1 La covariance se compare au produit des écarts-types par l’inégalité de CauchySchwarz. Proposition 15. On a : |cxy | ≤ sx sy . (1) Démonstration : Choisissons une constante a quelconque et calculons la variance de ax + y : s2ax+y = a2 s2x + 2acxy + s2y . Cette quantité est positive ou nulle pour tout a. Donc le discriminant de l’expression, vue comme un trinôme en a, est nécessairement négatif. Il vaut : c2xy − s2x s2y , d’où le résultat. Remarquons que le discriminant est nul si et seulement si s2ax+y peut s’annuler, c’est-à-dire s’il existe a tel que ax + y soit constant. Donc l’inégalité 1 ne peut être une égalité que s’il existe une relation affine entre x et y. Au vu de l’inégalité 1, il est naturel de diviser la covariance par le produit des écartstypes, pour définir le coefficient de corrélation (les écart-types sont supposés non nuls). Définition 34. On appelle coefficient de corrélation de x et y, et on note rxy , la quantité : cxy . rxy = sx sy 80 STA230 Cours de Statistique UJF Grenoble Quels que soient l’unité et les ordres de grandeur de x et y, le coefficient de corrélation est un nombre sans unité, compris entre −1 et 1. Il traduit la plus ou moins grande dépendance linéaire de x et y ou, géométriquement, le plus ou moins grand aplatissement du nuage de points. Nous avons vu que l’inégalité 1 ne pouvait être une égalité que si x est constant ou si y est de la forme ax + b. Si a est positif, le coefficient de corrélation de x avec ax + b est égal à +1, il est égal à −1 si a est négatif. Un coefficient de corrélation nul ou proche de 0 signifie qu’il n’y a pas de relation linéaire entre les caractères. Mais il n’entraîne aucune notion d’indépendance plus générale. Considérons par exemple les deux échantillons : x = ( −3 −2 −1 0 1 2 3 ) y = ( 3 2 1 0 1 2 3 ). Leur coefficient de corrélation est nul, et pourtant x et y sont liés par une relation fonctionnelle (yi = |xi |). Quand le coefficient de corrélation est proche de 1 ou −1, les caractères sont dits “fortement corrélés”. Il faut prendre garde à la confusion fréquente entre corrélation et causalité. Que deux phénomènes soient corrélés n’implique en aucune façon que l’un soit cause de l’autre. Très souvent, une forte corrélation indique que les deux caractères dépendent d’un troisième, qui n’a pas été mesuré. Ce troisième caractère est appelé “facteur de confusion”. Qu’il existe une corrélation forte entre le rendement des impôts en Angleterre et la criminalité au Japon, indique que les deux sont liés à l’augmentation globale de la population. Le prix du blé et la population des rongeurs sont négativement corrélés car les deux dépendent du niveau de la récolte de blé. Il arrive qu’une forte corrélation traduise bien une vraie causalité, comme entre le nombre de cigarettes fumées par jour et l’apparition d’un cancer du poumon. Mais ce n’est pas la statistique qui démontre la causalité, elle permet seulement de la détecter. L’influence de la consommation de tabac sur l’apparition d’un cancer n’est scientifiquement démontrée que dans la mesure où on a pu analyser les mécanismes physiologiques et biochimiques qui font que les goudrons et la nicotine induisent des erreurs dans la reproduction du code génétique des cellules. 4.1.3 Droite de régression linéaire Dans un problème de régression, les caractères ne sont pas considérés de la même façon. L’un d’eux est le caractère “à expliquer”, les autres sont “explicatifs”. Nous considérons seulement le cas de deux caractères x (explicatif) et y (à expliquer). “Expliquer” signifie ici exprimer une dépendance fonctionnelle de y comme fonction de x, de manière à prévoir la valeur de y connaissant celle de x. Si pour tout individu i, yi = f (xi ), et si on observe une valeur xn+1 du caractère x sur un nouvel individu, on donnera f (xn+1 ) comme prédiction du caractère y sur ce même individu. La situation idéale où y = f (x) n’est jamais rencontrée en pratique. On cherchera plutôt, dans une 81 Cours de Statistique STA230 UJF Grenoble famille fixée de fonctions, celle pour laquelle les yi sont les plus proches des f (xi ). La proximité se mesure en général par l’erreur quadratique moyenne : EQ(f ) = n 1X (yi − f (xi ))2 . n i=1 (2) On parle alors de régression au sens des moindres carrés. Les différences entre les valeurs observées yi et les valeurs prédites par le modèle f (xi ) s’appellent les résidus. Si le modèle est ajusté de sorte que la série des résidus soit centrée (de moyenne nulle), alors l’erreur quadratique EQ(f ) est la variance des résidus. La régression linéaire simple consiste à chercher f parmi les applications affines. La solution s’exprime simplement à l’aide des caractéristiques numériques de x et y. Proposition 16. Soient x et y deux échantillons recueillis sur une même population de taille n. Notons EQ(a, b) la fonction de R2 dans R+ définie par : EQ(a, b) = n 1X (yi − axi − b)2 . n i=1 Si s2x 6= 0 (le caractère x n’est pas constant), la fonction EQ(a, b) admet un minimum pour : cxy ab = 2 et bb = y − abx . sx La valeur de ce minimum est : 2 EQ(ab, bb) = s2y (1 − rxy ). Définition 35. On appelle droite de régression linéaire de y sur x la droite d’équation y = abx + bb. Démonstration : Si a est fixé, EQ(a, b) est un polynôme de degré 2 en b. Il atteint son minimum pour b = b(a) tel que la dérivée s’annule. Soit : n 2X ∂EQ(a, b) (yi − axi − b) = −2(y − ax − b) = 0 =− ∂b n i=1 On a donc b(a) = y − ax. Reportons cette valeur dans EQ(a, b) : EQ(a, b(a)) = n 1X ((yi − y) − a(xi − x))2 . n i=1 Cette fonction est un polynôme de degré 2 en a, qui atteint son minimum au point ab où sa dérivée s’annule, à savoir : n 2X − (xi − x)((yi − y) − ab(xi − x)) = 0 , n i=1 82 Cours de Statistique STA230 UJF Grenoble soit en développant : −2cxy + 2abs2x = 0 . Posons donc : ab = cxy s2x et bb = b(ab) = y − abx . On a bien pour tout (a, b) : EQ(ab, bb) ≤ EQ(a, b(a)) ≤ EQ(a, b) . La valeur du minimum est : EQ(ab, bb) = n 1X cxy ((yi − y) − 2 (xi − x))2 n i=1 sx c2xy c2xy 2 = − 2 2 + 4 sx sx sx 2 c = s2y − xy s2x 2 = s2y (1 − rxy ). s2y Comme on pouvait s’y attendre l’erreur quadratique minimale est d’autant plus faible que la corrélation est forte. Il est important de noter la dissymétrie des rôles de x et y. Par rapport au nuage de points, la droite de régression linéaire de y sur x minimise la somme des distances verticales des points à la droite. La droite de régression linéaire de x sur y minimise la somme des distances horizontales. Les deux droites se coupent au centre de gravité (x, y) du nuage de points. L’écart entre les deux est d’autant plus grand que la corrélation est faible. La prédiction est la première application de la régression linéaire. Voici les tailles en centimètres (échantillon x) et poids en kilogrammes (y) de 10 enfants de 6 ans. Enfant 1 Taille 121 Poids 25 2 123 22 3 108 19 4 118 24 5 111 19 6 109 18 7 114 20 8 103 15 9 10 110 115 20 21 Les caractéristiques numériques prennent les valeurs suivantes : b x y s2x s2y rxy ab b EQ(ab, bb) 113.2 20.3 34.76 7.61 0.9 0.42 −27.38 1.44 Effectuer une régression linéaire signifie que l’on pense que le poids doit croître en gros proportionnellement à la taille. La droite de régression linéaire constitue un modèle de prédiction. Par exemple, on affirmera que le poids moyen d’un enfant de 6 83 Cours de Statistique STA230 30 UJF Grenoble Poids 28 26 + + 24 + 22 + + 20 + + 18 16 + + + 14 12 Tailles 10 100 102 104 106 108 110 112 114 116 118 120 122 124 126 128 130 Fig. 14 – Tailles et poids d’enfants de 6 ans : droite de régression linéaire. ans mesurant 120 centimètres sera de ab120+ bb = 23.16 kg. Evidemment cette prédiction n’est pas infaillible. Elle donne un ordre de grandeur.qLa valeur observée s’en écartera probablement et l’erreur prévisible sera de l’ordre de EQ(ab, bb) = 1.2 kg. Nous verrons plus loin comment quantifier cette erreur, par la notion d’intervalle de prédiction. Comme seconde application, on peut étendre l’ajustement par quantiles à des familles de lois invariantes par transformation affine, comme les lois normales. Soit y un échantillon continu de taille n dont on souhaite vérifier qu’il pourrait être issu d’une loi normale N (µ, σ 2 ), les paramètres µ et σ 2 étant inconnus. Pour i = 1, . . . , n, notons y(i) les statistiques d’ordre (valeurs ordonnées des observations). Si l’hypothèse de normalité est pertinente, alors y(i) doit être proche du quantile QN (µ,σ2 ) (i/n) de la loi N (µ, σ 2 ). Rappelons que si une variable aléatoire X suit la loi N (0, 1), alors Y = σX + µ suit la loi N (µ, σ 2 ). Ceci revient à dire que pour tout u ∈ [0, 1] : QN (µ,σ2 ) (u) = σQN (0,1) (u) + µ . Notons xi = QN (0,1) (i/n) les valeurs de la fonction quantile de la loi N (0, 1) aux points i/n. Si l’hypothèse de normalité est vérifiée, les points de coordonnées (xi , y(i) ) devraient être proches de la droite d’équation y = σx + µ. Une régression linéaire des y(i) sur les xi fournit à la fois une estimation de σ et µ et une indication sur la qualité de l’ajustement. Avant les logiciels de calcul, on vendait du papier “gaussoarithmétique”, gradué en abscisses selon les quantiles de la loi N (0, 1). Il suffisait de reporter en ordonnée les valeurs des y(i) pour tracer à la main la droite de régression linéaire, qui porte le nom de “droite de Henry”, du nom du colonel qui a inventé cette méthode au siècle dernier pour étudier la portée des canons (figure 15). Le problème de la régression est de déterminer dans une famille de fonctions donnée, 84 Cours de Statistique STA230 130 UJF Grenoble Tailles + 128 + 126 + 124 ++ + + + ++ +++ +++++++ +++++++ +++ ++++++++++ +++++++++++ ++++++ ++++++++++ +++++ ++++++ ++++ +++++ ++ +++ 122 120 118 116 114 112 110 108 + + ++ 106 + 104 102 + Quantiles + 100 -3.0 -2.6 -2.2 -1.8 -1.4 -1.0 -0.6 -0.2 0.2 0.6 1.0 1.4 1.8 2.2 2.6 3.0 Fig. 15 – Tailles d’enfants de 6 ans. Quantiles de la loi normale N (0, 1) et statistiques d’ordre. Superposition de la droite de Henry. quelle est la fonction qui minimise l’erreur quadratique (2). Or il est fréquent qu’il n’y ait pas de solution explicite. Pour certaines familles de fonctions, on transforme le problème de manière à se ramener à une régression linéaire. Voici quelques cas fréquents. Fonctions y = aebx y = axb y = a + b/x y = 1/(1 + e−(ax+b) ) 4.2 4.2.1 Transformation y 0 = log(y) 0 y = log(y) x0 = log(x) x0 = 1/x y 0 = log(y/(1−y)) Forme affine y = log(a) + bx y 0 = log(a) + bx0 y = a + bx0 y 0 = ax + b 0 Modèle linéaire Intervalles de confiance et de prédiction Les échantillons gaussiens sont souvent utilisés pour modéliser les erreurs dans les modèles de régression. Ces modèles visent à expliquer un caractère Y (considéré comme aléatoire) par des caractères (considérés comme déterministes) (x(1) , . . . , x(k) ). On choisit une fonction de régression f , dépendant en général de plusieurs paramètres inconnus, et on écrit les variables aléatoires Yi sous la forme : (1) (k) Yi = f (xi , . . . , xi ) + Ei , où (E1 , . . . , En ) est un n-uplet de variables aléatoires indépendantes et de même loi. Les paramètres inconnus de f seront estimés par la méthode des moindres carrés, en minimisant l’erreur quadratique : n 1X (1) (k) EQ(f ) = (Yi − f (xi , . . . , xi ))2 . n i=1 85 Cours de Statistique STA230 UJF Grenoble Dans le cas où la fonction f est affine et (E1 , . . . , En ) est un échantillon gaussien, on peut déterminer explicitement la loi des estimateurs des moindres carrés, et en déduire des intervalles de confiance. Nous considérons seulement le modèle linéaire simple : Yi = axi + b + Ei , où Ei est un échantillon de la loi normale N (0, σ 2 ). En d’autres termes, on suppose que les Yi sont des variables aléatoires gaussiennes indépendantes, d’espérances axi + b distinctes, mais de même variance σ 2 . Le modèle comporte 3 paramètres inconnus, a, b, et σ 2 . On estime a et b en minimisant l’erreur quadratique : EQ(a, b) = n 1X (Yi − axi − b)2 . n i=1 On obtient ainsi les estimateurs dits “des moindres carrés” : A= cxY s2x et B = Y − Ax . L’erreur quadratique minimale est : 2 EQ(A, B) = SY2 (1 − rxY ). Ces trois variables aléatoires sont des estimateurs convergents de a, b et σ 2 respectiveσ 2 , il est ment. Les deux premiers sont non biaisés. L’espérance de EQ(A, B) est n−2 n donc asymptotiquement sans biais. On obtient un estimateur sans biais et convergent de σ 2 en posant : n EQ(A, B) . σb 2 = n−2 La prédiction est le premier objectif d’un modèle probabiliste. Dans le cas de la régression linéaire, si un nouvel individu était examiné, avec une valeur observée x∗ pour le caractère x, le modèle entraîne que la valeur Y∗ du caractère expliqué sur cet individu est une variable aléatoire, de loi normale N (ax∗ + b, σ 2 ). Les paramètres de cette loi auront pour estimateurs Ax∗ + B et EQ(A, B) respectivement. Le théorème suivant permet de calculer les lois de ces estimateurs, et donc des intervalles de confiance. On peut le considérer comme une extension du théorème donnant les lois de l’espérance et de la variance empirique pour un échantillon gaussien. Théorème 12. Avec les notations précédentes : s ns2x (A − a) suit la loi normale N (0, 1). σ2 s ns2x (A − a) suit la loi de Student T (n − 2). σb 2 1. 2. 86 Cours de Statistique STA230 UJF Grenoble 3. v u u t ns2x (Ax∗ + B − ax∗ − b) suit la loi normale N (0, 1). σ 2 (s2x + (x∗ − x)2 ) 4. v u u t ns2x (Ax∗ + B − ax∗ − b) suit la loi de Student T (n − 2). σb 2 (s2x + (x∗ − x)2 ) σb 2 suit la loi du khi-deux X 2 (n−2). σ2 On utilise ces résultats pour en déduire des intervalles de confiance. Nous notons [−uα , uα ], [−tα , tα ] et [xα , x0α ] les intervalles de dispersion optimaux de niveau 1 − α pour les lois N (0, 1), T (n − 2) et X 2 (n − 2) respectivement. Voici les intervalles de confiance de niveau 1−α correspondant aux différents points du théorème 12. 1. Intervalle de confiance pour a, si σ 2 est connu. 5. (n − 2) A − uα v u u t v u u σ2 σ2 t . , A + u α ns2x ns2x 2. Intervalle de confiance pour a, si σ 2 est inconnu. A − tα v u 2 u σ b t ns2x , v u 2 u σ b A + tα t ns2x . 3. Intervalle de confiance pour ax∗ + b, si σ 2 est connu. Ax∗ + B ± uα v u 2 2 u σ (sx t + (x∗ − x)2 ) . ns2x 4. Intervalle de confiance pour ax∗ + b, si σ 2 est inconnu. Ax∗ + B ± tα v u 2 2 uσ b t (sx + (x∗ − x)2 ) . ns2x 5. Intervalle de confiance pour σ 2 . " σb 2 σb 2 (n − 2) , (n − 2) 0 xα xα # . Si on souhaite prédire la valeur de Y∗ = ax∗ + b + E∗ sur un nouvel individu, il faudra tenir compte non seulement de l’erreur commise en estimant la valeur de ax∗ + b mais aussi de la variance σ 2 de E∗ . Ceci augmente l’amplitude de l’intervalle. Voici l’intervalle de prédiction de Y∗ , toujours au niveau 1−α, lorsque σ 2 est inconnu (et estimé par σb 2 ). Ax∗ +B ± tα v u 2 2 uσ b t ((n+1)sx + (x∗ −x)2 ) . ns2x 87 Cours de Statistique STA230 UJF Grenoble À titre d’exemple, considérons les tailles en centimètres (xi ) et poids en kilogrammes (yi ) de 10 enfants de 6 ans. Enfant 1 Taille 121 Poids 25 2 123 22 3 108 19 4 118 24 5 111 19 6 109 18 7 114 20 8 103 15 9 10 110 115 20 21 Les caractéristiques numériques prennent les valeurs suivantes : s2Y rxY A B EQ(A, B) x Y s2x 113.2 20.3 34.76 7.61 0.9 0.42 −27.38 1.44 Effectuer une régression linéaire signifie que l’on pense que le poids doit croître en gros proportionnellement à la taille. La droite de régression linéaire constitue un modèle de prédiction. Pour un enfant de taille donnée, on donnera un intervalle de poids, considéré comme “normal”, la normalité étant définie par référence au modèle et aux données. Voici les intervalles de prédiction de niveau 0.95 pour différentes tailles. taille intervalle de poids 100 [10.82 , 18.67] 110 [15.65 , 22.25] 120 [19.72 , 26.61] 130 [23.09 , 31.66] Les intervalles de prédiction sont d’autant moins précis que la taille de l’échantillon initial était faible et que la valeur de x∗ est plus éloignée de x (voir figure 16). 4.2.2 Test de pertinence de la régression L’hypothèse que l’on souhaite tester est que le caractère explicatif n’apporte pas d’information, c’est-à-dire que la pente a de la droite de régression linéaire est nulle : H0 : a = 0 . Selon que σ 2 est supposé connu ou inconnu, on utilisera le point 1 ou le point 2 du théorème 12. Supposons par exemple que σ 2 soit inconnu, la statistique de test est : s T = ns2x A. σb 2 Pour le test bilatéral de seuil α, la règle de décision est : Rejet de H0 ⇐⇒ T ∈ / [ QT (n−2) (α/2) , QT (n−2) (1 − α/2) ] . 88 Cours de Statistique STA230 UJF Grenoble Poids 40 37 34 31 28 + 25 + + 22 + + + + 19 + + 16 + 13 Tailles 10 80 85 90 95 100 105 110 115 120 125 130 135 140 145 150 Fig. 16 – Tailles et poids d’enfants de 6 ans : droite de régression linéaire et intervalles de prédiction. 4.2.3 Étude des résidus Rappelons que dans le modèle initial, nous avons supposé pour tout i entre 1 et n, Yi = axi + b + Ei , où les résidus Ei forment un échantillon de la loi normale N (0, σ 2 ). En d’autres termes, on suppose que les Yi sont des variables aléatoires gaussiennes indépendantes, d’espérances axi + b distinctes, mais de même variance σ 2 . Le test de pertinence de la régression permet de décider si a est nul ou non. Cela ne permet pas pour autant de valider le modèle. Pour cela nous devons vérifier que les données observées ne sont pas incompatibles avec l’hypothèse que les résidus sont des variables aléatoires indépendantes et de même loi N (0, σ 2 ). Les valeurs exactes de ces résidus sont et resteront inconnues. On les estimera donc par : Ebi = Yi − (Axi + B) . On démontre que sous les hypothèses du modèle, E[Eb i = 0] et i) V ar(Eb =σ 89 2 n − 1 (xi − x)2 − n ns2x ! . Cours de Statistique STA230 UJF Grenoble Il est donc raisonnable de réduire les résidus estimés en les divisant par leur écart-type. On obtient ainsi les résidus dits studentisés. Définition 36. On appelle résidus studentisés les quantités : (stud) Ebi Ebi = r σb n−1 − n (xi −x)2 ns2x . On démontre que les résidus studentisés suivent chacun la loi de Student T (n − 2). Ceci permet de tester qu’ils ne prennent pas de valeur trop grande en valeur absolue. Pour aller plus loin, on représente le graphe des résidus, qui est le nuage des points (stud) de coordonnées (xi , Ebi ). Si le modèle est correct, ces résidus doivent être distribués comme pour un échantillon de la loi T (n − 2) : on ne devrait pas voir apparaître de dépendance en les xi , on devrait trouver à peu près autant de valeurs au-dessus et audessous de l’axe des abscisses. . . Si le graphe des résidus fait apparaître une dépendance en les xi , alors le modèle ne peut pas être utilisé pour faire de la prédiction. 90