Résumé de méthodes quantitatives II 1. Introduction

Transcription

Résumé de méthodes quantitatives II 1. Introduction
Résumé MQ II 2012
Résumé de méthodes quantitatives II
1. Introduction
Modalités de l’examen (Exemples) :
- Un sujet d’étude avec des données et expliquer ce que veut dire les chiffres et autres. Il ne s’agit
donc pas de calculer l’intégrale de x, … .
- Utiliser des réseaux bayésien pour faire une étude comme par exemple les risques de prolifération
nucléaire.
Définitions :
- Choc des civilisations : Idée que l’on a différentes civilisations qui peuvent se combattre. C’est une
idée qui dit qu’il y a un juste et un faux. Exemple une religion correcte.
o Opposé : Pensée sauvage de Lévy Strauss
- Structuralisme (Lévi Strauss ) : Chercher des structures dans des choses pas mathématiques. Strauss
a développé le principe de civilisation chaude et froide. Selon lui la science est le choc des idées et
non une science cumulative qui est toujours vrai. Selon Lévi Strauss, on ne peut pas tout expliquer
juste avec les sciences et avoir des révélations.
- Paradigme : Corpus que l’on considère comme vrai dans un groupe.
- Méthodes quantitatives : Instruments au service d’une position philosophique.
- Le quantitatif : Mesure sur laquelle on peut faire des calculs qui ont un sens.
o Tout le monde possède une variable quantitative en différentes proportions
- Le qualitatif : Propriété pour laquelle on ne peut pas faire des calculs qui ont du sens
o Tout le monde ne partage pas les mêmes propriétés. On l’a ou on ne l’a pas.
Peut-on faire des mathématiques sur tout ?
- Quand on sort du cercle du certain, précis et exact, on arrive dans une complexité. On ne peut plus
faire des mathématiques et on doit faire de l’analyse sociale qualitative, … .
- On peut alors dire que dès qu’il y a des gens qui agissent, il faut de la géographie culturelle car on ne
peut pas mesurer. Mais ce qui est mesurable ou non n’est pas clair.
- On peut par exemple utiliser les maths pour mesurer le sentiment du temps qui passe.
Une analyse se fait en 4 étapes :
o 1. Positionnement philosophique : Exemple : Qu’est-ce qui fait qu’on a le sentiment que le
temps passe de plus en plus vite ? La première année de notre vie semble la plus longue car
cela valait 100% de notre vie. Alors que notre 5ème année vaut 20% de notre vie, etc.
o 2. Lien avec un outil mathématique : On a une formule mathématique logarithmique avec k
qui correspond à une constante pour la référence.
o 3. Fabrication d’un modèle qui traduit les idées des points 1 ou 2 : Formule
o 4. Philosophie sur le modèle : La moitié de la durée de vie ressentie déjà écoulée à 10ans.
- Moralité : C’est faux de dire qu’il y a un territoire pour les maths et un autre pour le reste. Mais on
peut aussi modéliser qqch en maths alors que ce n’est pas modélisable et ça donne n’importe quoi.
- Les méthodes quantitatives reposent sur le principe que tant que personne ne nous a contredits,
notre théorie est correcte.
- On peut manipuler du qualitatif avec du quantitatif.
- But de l’analyse multivariée : Trouver une organisation dans une masse d’information.
1
Résumé MQ II 2012
2. Régression simple
Introduction :
- La statique peut prendre plusieurs formes.
o 1. Fréquentielle : Stat connue avec échantillonnage et loi des grands nombres (min 30 pers.)
o 2. Bayésienne (probabilités conditionnelles) : Permet de traiter une probabilité. Plutôt que
de dire « j'ai observé x fois le phénomène donc ça va continuer », on va regarder le contexte.
Exemple : Si on traverse la route, on regarde le fait que l'on est en Suisse, que l'on n’est
jamais mort écrasé, qu'il y a des garages pour réparer les voitures, … .
o 3. Non linéaire (réseaux de neurones) : On essaie de créer de l'intelligence artificielle. On
cherche à faire réfléchir l'ordinateur et non à reproduire des actions prévues.
- L’information géographique est contextuelle :
o L’information comporte des influences de voisinage et d’interactions à diverses échelles.
Exemple : Une ville peut être vue depuis l'intérieur comme depuis 3000m d'altitude.
o Lorsque l’on a une variable spatiale, on fait de la géostatistique
Statistique fréquentielle (rappel):
- Population initiale => loi des grands nombres => échantillons => moyenne et écart-type, … .
- Stat. descrip. : valeurs centrales (moyenne, mode, médiane) et de dispersion (écart-type, quantiles)
- Population et caractères : Il faut connaître la nature (qualit. ou quantit.) des données
Régression linéaire :
- Outil pour expliquer les données : On cherche une équation qui fait un lien entre les variables
- On a d’autres outils pour décrire les données : AFC, classification, …
- Recherche de droite qui s’ajuste le mieux possible au nuage de points sans privilégier un caractère
- Outil pour étudier la relation entre 2 caractères quantitatifs continus
-
D’abord on étudie la relation Y expliqué par X, puis on regarde l’inverse si cela a du sens.
o Si les deux ont du sens, il faut regarder lequel en a le plus et tirer des conclusions de là.
2
Résumé MQ II 2012
-
Moindres carrés : Minimiser la somme des plus courtes distances de tous les points à la droite.
-
Covariance : Tendance générale quand X et Y varient ensemble
Pente a = COVXY / Variance X :
o Si a > 0 => X et Y ont tendance à varier dans le même sens
o Si a < 0 => X et Y ont tendance à varier dans le sens opposé
o Si a est proche de 0, X et Y sont indépendants
Placer la droite : Il faut 2 pts : (Moy(X) ; Moy(Y)) et (0 ; b)
-
Résidus :
- Résidu : Différence entre un point de donnée en (Xi, Yi) et sa position estimée sur la droite en Xi.
o Si X est expliqué par Y, on renverse le processus.
-
-
L’étude de résidu permet de voir l’intervention d’autres facteurs non pris en compte dans le modèle
mais qui influencent la variable expliquée. Il faut donc essayer d’expliquer ces résidus.
o Exemple : PIB en fonction du secteur tertiaire. Résidu négatif pour la GB à cause du marché
du travail libéral. Résidu positif pour l’Allemagne à cause de l’industrie et résidu proche de 0
pour la France à cause d’une forte productivité mêlée à un fort taux de chômage.
o On peut aussi cartographier les résidus pour mieux les comprendre.
Indicateur R2 : Indicateur de résidu entre 0 et 1. Un bon modèle est un modèle avec R2 > 0.6
3
Résumé MQ II 2012
3-4-5. Décrire : ACP et AFC
Introduction :
- Le but des analyses factorielles est de résumer de grands tableaux numériques en diminuant leur
nombre de colonnes.
- ACP = Analyse en Composantes Principales : Résumé et synthèse de variables quantitatives
- AFC = Analyse Factorielle des Correspondances : Synthèse de variables qualitatives.
- Mécanique générale de l’AF : On peut transformer un tableau en nuage de points => Espace vectoriel
o Une matrice d’information à n lignes et p colonnes devient un nuage de n points sur p axes.
- AF = résumé du nuage de points = projection dans un espace le plus souvent à 2dimensions.
o On projette perpendiculairement sur une droite (moindres carrés) sans privilégier de variable
- On a deux écoles pour l’analyse factorielle :
o Ecole américaine qui regarde surtout les chiffres (en terme algébrique)
o Ecole française : regarde surtout la structure géométrique (en termes géométrique)
Les axes factoriels :
- Axe factoriel : Axe de plus grand allongement du nuage de point sur lequel on projette les points.
o L’analyse factorielle fait passer un deuxième axe factoriel
dans le sens des résidus et ainsi de suite jusqu’à ce que
toute l’info soit comprise dans les axes factoriels.
o Moindres carrée : Recherche de la droite qui minimise la
somme des distances entre un point du nuage A et sa
projection A’ sur l’axe factoriel.
- Utilité de l’AF : Exploration en réduisant la complexité, la résumant
à ses principales dimensions et les hiérarchisant.
4
Résumé MQ II 2012
Marche à suivre de l’AF (La mécanique mathématique)
1. Transformation des variables et calcul d’une matrice d’inertie (nbre var. X nbre var.)
2. Extraction des valeurs propres à partir de la matrice d’inertie
3. Extraction des vecteurs propres à partir de la matrice d’inertie et des valeurs propres
4. Calcul d’indicateurs pour aider à l’interprétation
5. Productions graphiques
L’analyse en composante principale :
- On a plusieurs types de tableaux possibles :
o Matrice d’information non-géographique (Individus ≠ lieux mais info spatial possible)
o Matrice d’info spatio-chronologique (Individus = lieu, même variable à des dates différentes)
o Matrice d’info géographique (Individu = lieux dans lesquels sont agrégées des données issues
d’enquêtes sur des individus plus fin. Attention alors au risque d’erreur écologique !!)
- Erreur écologique : Fait de regrouper les individus par agrégat. On fait des analyses spatiales.
o Exemple : la propriété « Beaucoup de criminel » est une propriété du quartier et non du
groupe de personne qui y habite et si on regarde bien c’est surtout du au revenu.
o C’est un bon moyen de trafiquer les statistiques pour notre bien. Exemple : « Il y a +
d’étrangers et + de violence dans ce quartier. Donc les étrangers amènent la violence. »
Etapes d’analyse de l’ACP :
1. Calcul d’une matrice de relation entre les variables (Etape 1 et 2 de la marche à suivre de l’AF)
a. Matrice de variance covariance : M centrée X sa transposée
i. La matrice centrée garde les unités mais on garde la force d’une variable => pas clair
ii. Covariance = mesure de la force du lien entre deux variables aléatoires
iii. Traitement 2 à 2 des variables du tableau centré
b. Matrice des corrélations : M centrée réduite X sa transposée
i. Une matrice centrée réduite => courbe de Gauss standardisée avec des variables
sans unités => Plus clair mais on risque de donner trop d’importance à une valeur.
ii. Aussi une mesure de l’intensité de la relation entre des variables prises 2 à 2
iii. L’indicateur varie cette fois entre 1 (relation forte positive) et -1 (rel forte négative).
iv. On peut ensuite faire des graphiques de corrélation avec les valeurs élevées.
c. En résumé : d’abord on transforme le tableau en tableau centré ou centré réduit, puis on
calcule les matrice entre multipliant le résultat par sa transposée.
2. Calcul des axes factoriels et de leurs variances (Etape 3 de la marche à suivre de l’AF)
a. Valeur propre : Calcul de la quantité d’information prise en compte par l’axe factoriel
b. Vecteur propre : Direction de l’axe factoriel
3. Calcul d’aides à l’interprétation des résultats et production graphiques (Etapes 4-5 de la màs de AF)
a. Plus une variable est loin du centre, plus elle a de l’importance
et elle apporte qqch à l’étude.
b. Les variables à valeurs élevées sur le même axe sont corrélées.
c. Si deux variables sont très proches, on peut en enlever une.
d. Le cercle est un cercle de corrélation de rayon 1.
e. On peut ensuite placer les individus dans ce cercle et les
regrouper manuellement selon les résultats. Par exemple, la
Suisse va se trouver tout à droite. D’autre pays seront mal
représentés par les deux axes comme la Grande-Bretagne.
4. Interprétation des résultats
5
Résumé MQ II 2012
L’analyse factorielle des correspondances (AFC) :
L’AFC est une analyse factorielle adaptée à d’autres formes de tableaux que l’ACP : Elle permet de résumer
des caractères qualitatifs (mais pas seulement), càd des propriétés (on l’est ou on ne l’est pas sans moyenne)
- Les objectifs sont les mêmes (Passer d’un tableau à un nuage de point)
o Résumer l’information contenue dans de grands tableaux numériques
o Faire une représentation multidimensionnelle avec des résumés descriptifs (axes factorielles)
o Donner une signification à cette info grâce à des aides à l’interprétation.
- Différence : L’AFC porte sur un autre type de tableau : le tableau de contingence !
Le tableau de contingence :
- Expression d’une distribution bivariée par classes,
croisant des modalités qualitatives ou des classes.
- A l’intersection des modalités, on des comptages
d’individus qui possèdent ces deux caractéristiques.
- On peut parfois additionner les effectifs des colonnes si cela a du sens.
- Définition étendue : tout tableau symétrique croisant 2 caractères jouant un rôle équivalent, ou un
tableau pour le croisement de caractères où sommes en ligne et en colonnes ont un sens.
- La procédure générale est la même que pour le ACP mais la transformation du tableau est différente
Transformation du tableau D de données :
- On définie d’abord le poids d’un élément = fréquence = valeur de l’élément / total. Ex : fi=Ni/N
o L’élément peut être une case du tableau, mais aussi une ligne ou une colonne entière.
o On a 2 autres fréquences possibles (fréquences conditionnelles): on peut aussi diviser par la
somme de la colonne ou de la ligne au lieu du total du tableau entier. Exemple : fij=Nij / Ni
- On transforme les valeurs de chaque ligne en proportion de leur totale de ligne :
o D’ij = fij/i = Dij / Di. Avec fij/i = Nij / Ni (fréquence cond.)=> Les totaux en ligne = 1.
-
-
Moyenne d’une colonne :
Centre de gravité : Point de coordonnées (m1, m2, …, mp) si D a p colonnes et n lignes)
On peut également calculer la variance mais la vraie distance correspond à la mesure de distances
o En AFC, on utilise la distance du Khi^2 alors qu’en ACP on utilise une distance euclidienne.
o La distance euclidienne est sensible aux effets de taille => Pas cool pour comparer 2 profils
o Equivalence distributionnelle : Distribution de A = Distribution de B = Distribution de A+B
o La pondération par 1/fréquence de la somme en col. pour khi valorise les « diff. rares »
Calcul de la matrice de covariance : C=Fij/i * Fij/j.
Interpréter une AFC :
- En ACP, on a que les vecteurs et valeurs propres et il faut calculer le reste soit-même
- En AFC c’est le contraire. On a que les valeurs propres, des coordonnées, contributions et qualité.
- Valeur propre : Tient compte des poids relatif des effectifs des lignes et des colonnes
o Valeur absolue de la valeur propre : Si > 0.6 contraste marqué entre les individus
- Poids : Le poids de chaque modalité est sa fréquence relative. Il a servi de pondération avant.
- Inertie associée à chaque modalité = Phi2. Somme des inerties = inertie totale du tableau
- Coordonnées des lignes / colonnes sur les axes : la proximité des modalités a un sens,
o On a des coordonnées extrêmes si les modalités ont un faible effectif.
-
6
Résumé MQ II 2012
Tableau de Burt et AFCM:
- Tableau de Burt : Super tableau de contingence avec toutes les caractéristiques en ligne et colonne
- On peut lancer un AFC sur ce tableau avec un résultat sur N variables cette fois.
- Problèmes : Une AFC sur un tableau de Burt (càd un tableau partant d’effectifs pour le croisement de
modalités identiques en ligne et en colonne) ne fournit aucune info sur les individus enquêtés.
o Or c’est souvent le but d’une enquête d’avoir une typologie d’enquêtés.
=> Il faut un autre tableau : Le codage disjonctif complet pour faire ensuite une AFCM
o Il y a autant de lignes que d’individus dans le tableau de base
o Il y a autant de colonnes qu’il y a de modalités en tout (=> autant de colonne que pour Burt)
o Code binaire pour chaque case : 1 = individu présente la modalité / 0 pas la modalité
- Ressemblances Burt et Disjonctif : AFCM = AFC sur tableau binaire => même procédure (rappel) :
o Calcul des profils-ligne et profils-colonne
o Ajustement avec pondération par les poids des lignes et des colonnes
o Métrique du Khi2 pour déterminer les axes.
o Sur-représentation dans les axes des modalités les plus rares.
- Différences Burt et Disjonctif : Si seulement 2 modalités, les résultats sont les mêmes. Sinon :
o L’info prise en compte est plus faible dans les tableaux disjonctifs
o VariancesDisjonctif sont égales au carré des VariancesBurt => VariancesDisjonctif plus pessimistes.
!! Il ne faut pas oublier de retourner dans le tableau initial à la fin pour voir si nos résultats sont ok.
Conclusion :
- Avec l’ACP, on peut traiter que du quantitatif, ce qui est rare en géographie.
- L’AFCM correspond mieux pour la géo car on peut transformer le quantitatif en qualitatif et non
l’inverse. De plus, l’AFCM conserve l’individualité de chaque entité.
- Le plan factoriel nous sert à naviguer dans le tableau et c'est tout. C'est à nous d'expliquer le pk du
comment.
7
Résumé MQ II 2012
6. Décrire, classification
-
Les analyses factorielles résument, dans les grands tableaux numériques, l’information en colonnes.
Les méthodes de classification, elles, ont pour but de résumer celle de leurs lignes.
La classif. sert à créer des typologies, = ensemble de classes homogènes mais diff. par leurs caract.
Zonation : Classes homogènes et continues si forte autocorrélation (i.e les voisins se ressemblent)
Régions fonctionnelles : Région où les unités spatiales sont interdépendantes.
Les méthodes graphiques :
- Les graphiques cartésiens : Marche pour des points peu nombreux.
- Classification par arborescence « raisonnée » : Risque rapide d’explosion combinatoire
o Exemple : Villes classées selon les transports, les pistes cyclable et les voies piétonnes.
- Diagramme triangulaire : Il faut 3 caractères qui vont de 0 à 100% et dont le total fait 100%
o Exemple : Secteurs de travail dans un pays (primaire, secondaire, tertiaire)
- Les méthodes graphiques sont didactiques mais ont souvent des faiblesses opératoires.
Les méthodes statistiques :
- Il faut aussi un nuage de n point par rapport à p variables comme pour l’ACP/AFC.
- Elles fonctionnent sur des quantitatif. Donc souvent on fait une AFC puis on classifie les résultats
- Il existe de nombreuses méthodes, mais deux grandes familles sont très populaires :
o Les méthodes agglomératives ou hiérarchiques : Regroupe par agglomérations successives
o Les méthodes convergentes : Partitions à priori, puis réaffectation des mal classés.
La classification ascendante hiérarchique :
- Choix d’une mesure de la distance entre les
individus (Soit euclidienne, rectilinéaire, Pearson)
- Choix d’une méthode de liaison entre groupes :
o Simple : Cf. schéma --->
o Complète : Cf. schéma --->
o Moyenne : Plus courte distance moyenne
o Centrée : Plus courte distance des centres
o Liaison de Ward : Fusion pour les groupes pour lesquels la différence entre la variance du
couple et la somme des variances des deux groupes est la plus petite.
- Dendogramme : Arbre des fusions pour voir à combien de classes on en est.
- Choix du nombre de classes : Observation de la hausse de la distance pour repérer les sauts.
- Le poids d’une variable est proportionnel à sa variance => Normalisation préférable comme pour
l’ACP, sauf si on travaille sur des axes factoriels car la variance explique alors la variable d’origine.
- Défaut de la CAH : Liaison définitive, même si le groupe ressemble de moins en moins à l’individu
o => Risque d’un individu mal classé que l’on peut limiter avec une liaison de Ward.
Les centres mobiles ou k-moyennes (Méthode convergente) :
- On fixe un nombre k de classes a priori, on choisit k individus pour être les centres puis on affecte
chaque individu au centre le plus proche, puis on calcule les centres réels des classes obtenues.
- On relance le processus car certains individus se retrouvent plus proches d’un autre centre.
- Défauts : Nombre de classes à priori, dépend du tirage initial, construction peu claire des classes
- Avantages : individus rarement mal classés, Algorithme moins que la CAH.
- Variante : La nuée dynamique : On compare les itérations de chaque groupe. Cela met en évidence
des classes fortes (classes avec des éléments qui n’ont jamais changé de groupes) et faibles.
- Mixage des méthodes : Si données pas trop lourdes :CAH puis CM.
Sinon : CM puis CAH
8
Résumé MQ II 2012
7. Modélisation
-
Analyse (exploratoire) de données : Les AF (ACP, AFC, AFCM) et les classifications (convergentes,
hiérarchiques, segmentation)
Modélisation statistique : Régression lin. Multiple (Xs et Y quant.), Modèle lin. Généralisé (Xs quant
et qual et Y quant) et Régression logistique (Xs quant et qual et Y binaire)
La régression multiple:
- Déf : Régression où plusieurs variables explicatives (X1, X2, …) rendent compte de la variabilité de Y
o Y et Xj : Variables quantitatives continues connues par individu.
- Dissymétrie : Contrairement à la régr. simple, on peut que expliquer Y avec les Xj mais pas l’inverse.
- Hyperplan : Projection du nuage de point à l’aide des moindres carrés : Y’=a1 X1+…+ap Xp+b
o Equation : b=ordonnée à l’origine (=0 si standardization) et les aj = coeff de régression
- Indépendance: Les variables Xj doivent être indépendantes (pas de corrélation entre elles) => Test R2
o Si (et seulement si) elles sont indépendantes, alors aj s’interprète comme en régress. simple
o Les variables Xj doivent par contre être bien corrélées avec Y, sinon elles sont inutiles
o Redondance : Corrélation indirect (Ex : Si X1=>X2 et X1=>Y, alors X2=>Y mais en fait c’est faux)
- Résidus : On contrôle si la régression est bonne càd si les résidus sont proches de 0.
o Il faut regarder de près, cartographier et interpréter les résidus les plus forts.
o Examen : La distrib. doit être normale=>loi de Gauss pour extrapol., Pas de croiss en fct de Y’
o Importants pour : Nécessité d’ajouter une variable Xj, erreur aléatoire, particularités locales.
- Conditions de validité : relation X-Y linéaire, Xj non-colinéaires (Ex: Suppr un sect. d’emploi) et indép.
- Contrôles d’erreur aléatoire sur Y : Normalité des résidus, homoscédasticité des résidus (variance à
peu près égale peu importe l’intervalle de valeurs des résidus)
Data Mining :
- Déf : Recherche de la meilleure combinaison des Xj dispo pour expliquer Y =>Régression pas à pas
- Procédure itérative : Régression simple Y et Xk avec le + fort R2. Ajout de variables pour un R2 max.
o Précautions : n > 10xnbre de variables, choix d’une condition d’arrêt, grd gain de variance
o Procédure ascendante : Ajout progressif de variable. S’oppose à une procédure descendante
- Généralisation : Uniquement si l’échantillon est représentatif et si les tests de significativité sont ok.
o Etude de significativité : Sur les variables explicatives : Analyse de variance et test F de Fisher
 Si F calculé > F lu => généralisation possible
ANCOVA :
- ANalyse de CO-VAriance : Permet l’ajout d’une variable catégorielle à une régression multiple.
o Ex : Ajout de la variable « Europe occidentale/ centrale » à la relation Esp(vie) en fct du PNB
- Idée directrice : Calculer la régression simple entre Esp(vie) et PNB, puis faire une ANOVA entre les
résidus Y-Y’ et la variable qualitative à k modalités => Même commentaire qu’en Analyse de variance
- Conditions de validité : Variable explicatives Xj sans erreur aléatoire, linéairement liées à Y et pas
colinéaires, pas de donnée exclu (càd dont le résidu est très grand).
9
Résumé MQ II 2012
8-9-10. Modélisation en environnement incertain
-
Déterminisme Laplacien : Lois causales qui permet de décrire l’état du monde à partir de son état
juste antérieur. Tout est calculable, il faut juste trouver la bonne loi. Déterminisme total sans hasard
Déterminisme de Claude Bernard : Tout système naturel est strictement déterminé par un ensemble
de conditions, ce qui n’empêche pas des systèmes bio d’avoir leurs propres lois=>Déterminisme local
Ilya Prigogine : Les syst. dyn. avec solutions sont chaotiques n’obéissent pas aux lois classiques
o Principe du chaos : On a une info finie alors qu’il faut une connaissance infinie => phys stat
Théorème d’indétermination : Impossible de connaître la position et la vitesse de la lumière en
même temps
8. Rappels de stat :
- Variable aléatoire : Variable qui peut prendre n’importe quelle valeur d’un intervalle
o En stat : Une v.a. est une suite de tirages indépendants avec moyenne et écart type possible
- Loi des grands nombres (min 30 valeurs) : Moyenneéchantillon converge vers la moyenne de la pop
- Théorème central limite : Si la variable aléatoire X a un écart type fini => loi normale possible
o Loi normale : Elle ne fonctionne que si les distributions sont égalitaires
- Loi de Pareto : loi du 20/80 : Ex : 20% des produits d’IKEA produisent 80% du chiffre d’affaire.
o Dans ce cas, la moyenne et l’écart-type ne peuvent pas bien rendre compte de la distribution
o La loi normale ne fonctionne pas ici car les événements rares influences trop la moyenne.
Hasard sauvage ou hasard sage :
- Hasard sauvage : la moyenne et l’écart-type ne peuvent pas bien rendre compte de la distribution
o A mesure que l’on fait des prédictions stat, le hasard continue de diverger
- Hasard sage : la moyenne et l’écart-type peuvent rendre compte de la distribution
- Hasard lent : Hasard sage pour lequel il faut longtemps pour trouver la solution.
Théorie des valeurs extrêmes :
- Situations de bon sens où la moyenne et l’écart types ne sont pas adaptés au problème (Ex : Digues)
- Théorème de Fischer-Tippet-Gnedenko : Quelle que soit la variable étudiée, la valeur max obéit soit :
o Fréchet (hasard sauvage), Gumbel (hasard sage) ou Weibull (variables bornées)
- Malédiction du cygne noir : Les facteurs humains augmentent l’incertitude (Ex : Three Mile Island)
o Solution : Théorie des graphs et probabilité (Ex : Arroseur du jardin)
9. Probabilités :
- Théorie des proba : Etude mathématique des phénomènes caractérisés par le hasard et l’incertitude.
- Les proba étudient qqch pas encore produit alors que les statistiques étudient qqch déjà produit.
- Axiomes : Pour tout événement A, on a 0<P(A)<1 // P(U)=1 // P( A1 U A2 U …) = Somme(PAi) si Ai sont
incompatibles càd si l’intersection des événements est vide (réalisation simultanée impossible)
- Indépendance : Deux événements qui ne s’influent pas (multiplication des proba possible)
- Proba discrètes : Soit nbre de cas favorable / nbre de cas possible, soit par univers (Kolmogorov)
- Proba continues : Déf classique impossible car la prob dépend du protocole de choix
o Déf moderne : Proba avec une fonction f(x) dérivable => densité de proba.
 On peut toujours associer une fonction de réparition à une distribution de var. aléat.
 Fonctions possibles : Uniforme discrète, Bernoulli, Poisson
10
Résumé MQ II 2012
Interprétation des probabilités (2 interprétation physiques et 3 épistémiques:
- Ecole fréquentiste : Fréq. relative dans un grand nombre de situations identiques. Approche stat
- Propensionnisme : Attribution d’une tendance. Ex : Un verre à une propension à se casser => proba
- Bayésianisme : Lien entre des degrés de croyance et une proba.
- Bay. subjectif : Les degrés de croyance doivent respecter uniquement les proba. (proba d’un dragon)
- Bayésianisme objectif : Donne un statut objectif au degré de croyance => conformité aux infos dispo
10. Statistiques bayésiennes :
Loi de Bayes :
= Proba de réalisation de B sachant que A est réalisé (Proba conditionnelle)
Théorème de Bayes :
Principe des statistiques bayésiennes : les gens révisent leurs croyances selon ce qu’ils ont autour d’eux
Marche à suivre pour une analyse bayésienne :
1. Construction d’un espace probabilisé : on définit des événements et des proba pour certains
a. Partie délicate car on a des degrés de croyance. On favorise ou non un cas selon nos croy.
2. Utiliser et traduire en proba la connaissance certaine.
3. Exprimer les questions en terme de de probabilités Valeur de P(A=V|B=F) , … ?
11

Documents pareils