Introduction au cours d`analyse de données
Transcription
Introduction au cours d`analyse de données
Introduction au cours d’analyse de données Jean-Marc Lasgouttes — Inria Paris [email protected] https://who.rocq.inria.fr/Jean-Marc.Lasgouttes/ana-donnees/ Exemple : la température en France ajac ange ango besa biar bord bres cler dijo embr gren lill limo lyon mars mont nanc nant nice nime orle pari perp reim renn roue stqu stra toul tlse tour vich janv 7.7 4.2 4.6 1.1 7.6 5.6 6.1 2.6 1.3 0.5 1.5 2.4 3.1 2.1 5.5 5.6 0.8 5.0 7.5 5.7 2.7 3.4 7.5 1.9 4.8 3.4 2.0 0.4 8.6 4.7 3.5 2.4 fev 8.7 4.9 5.4 2.2 8.0 6.6 5.8 3.7 2.6 1.6 3.2 2.9 3.9 3.3 6.6 6.7 1.6 5.3 8.5 6.8 3.6 4.1 8.4 2.8 5.3 3.9 2.9 1.5 9.1 5.6 4.4 3.4 mars 10.5 7.9 8.9 6.4 10.8 10.3 7.8 7.5 6.9 5.7 7.7 6.0 7.4 7.7 10.0 9.9 5.5 8.4 10.8 10.1 6.9 7.6 11.3 6.2 7.9 6.8 6.3 5.6 11.2 9.2 7.7 7.1 avri 12.6 10.4 11.3 9.7 12.0 12.8 9.2 10.3 10.4 9.0 10.6 8.9 9.9 10.9 13.0 12.8 9.2 10.8 13.3 13.0 9.8 10.7 13.9 9.4 10.1 9.5 9.2 9.8 13.4 11.6 10.6 9.9 mai 15.9 13.6 14.5 13.6 14.7 15.8 11.6 13.8 14.3 13.0 14.5 12.4 13.3 14.9 16.8 16.2 13.3 13.9 16.7 16.6 13.4 14.3 17.1 13.3 13.1 12.9 12.7 14.0 16.6 14.9 13.9 13.6 juin 19.8 17.0 17.2 16.9 17.8 19.3 14.4 17.3 17.7 16.4 17.8 15.3 16.8 18.5 20.8 20.1 16.5 17.2 20.1 20.8 16.6 17.5 21.1 16.4 16.2 15.7 15.6 17.2 20.2 18.7 17.4 17.1 juil 22.0 18.7 19.5 18.7 19.7 20.9 15.6 19.4 19.6 18.9 20.1 17.1 18.4 20.7 23.3 22.7 18.3 18.8 22.7 23.6 18.4 19.1 23.8 18.3 17.9 17.6 17.4 19.0 22.6 20.9 19.1 19.3 aout 22.2 18.4 19.4 18.3 19.9 21.0 16.0 19.1 19.0 18.3 19.5 17.1 17.8 20.1 22.8 22.3 17.7 18.6 22.5 22.9 18.2 18.7 23.3 17.9 17.8 17.2 17.4 18.3 22.4 20.9 18.7 18.8 sept 20.3 16.1 16.9 15.5 18.5 18.6 14.7 16.2 15.9 15.3 16.7 14.7 15.3 16.9 19.9 19.3 14.7 16.4 20.3 19.7 15.6 16.0 20.5 15.1 15.7 15.0 15.0 15.1 20.5 18.3 16.2 16.0 oct 16.3 11.7 12.5 10.4 14.8 13.8 12.0 11.2 10.5 10.1 11.4 10.4 10.7 11.4 15.0 14.6 9.4 12.2 16.0 14.6 10.9 11.4 15.9 10.3 11.6 11.0 10.5 9.5 16.5 13.3 11.7 11.0 nov 11.8 7.6 8.1 5.7 10.9 9.1 9.0 6.6 5.7 4.6 6.5 6.1 6.7 6.7 10.2 10.0 5.2 8.2 11.5 9.8 6.6 7.1 11.5 6.1 7.8 6.8 6.1 4.9 12.6 8.6 7.2 6.6 Variables ensemble de caractéristiques d’une population. – quantitatives : nombres sur lesquels les opérations usuelles (somme, moyenne,...) ont un sens ; elles peuvent être discrètes (ex : nombre d’éléments dans un ensemble) ou continues (ex : prix, taille) ; – qualitatives : appartenance à une catégorie donnée ; elles peuvent être nominales (ex : sexe, CSP) ou ordinales quand les catégories sont ordonnées (ex : très résistant, assez résistant, peu résistant). dec 8.7 4.9 5.3 2.0 8.2 6.2 7.0 3.6 2.1 0.5 2.3 3.5 3.8 3.1 6.9 6.5 1.8 5.5 8.2 6.5 3.6 4.3 8.6 3.0 5.4 4.3 3.1 1.3 9.7 5.5 4.3 3.4 L’analyse de données But synthétiser, structurer l’information contenue dans des données multidimensionnelles (n individus, p variables). Deux groupes de méthodes – méthodes de classification : réduire la taille de l’ensemble des individus en formant des groupes homogènes ; – méthodes factorielles : réduire le nombre de variables en les résumant par un petit nombre de composantes synthétiques. La température en France (2) Deux types de méthodes factorielles – analyse en composantes principales : variables numériques ; – analyse des correspondances : variables qualitatives. d=2 bres nanc embr lill stqu stra reim besa roue orle limo dijo vich cler gren renn pari angetour lyon nant ango But du cours lill stqu roue reim pari nanc Méthodes couvertes par le cours – analyse en composantes principales (ACP) ; – analyse (factorielle) des correspondances (AFC) ; – analyse des correspondances multiples (ACM). stra bres renn ange tlse orle tour dijo besa nant bord biar ango limo vich cler bord nime mars toul perp biar Compétences recherchées – comprendre les fondements mathématiques des méthodes ; – savoir interpréter les tables et graphiques issus de ces méthodes ; – être capable de mener soi-même une telle étude. embr ajac nice lyon gren mont nime mont mars toul tlse nice perp Individus et variables Population lyse. groupe ou ensemble d’individus que l’on ana- Recensement étude de tous les individus d’une population donnée. Sondage étude d’une partie seulement d’une population appelée échantillon. 1 Ce que ce cours n’est pas Un cours de mathématiques financières il n’y a pas de modèles probabilistes de processus financiers (cours de bourse...). Un cours de statistique inférentielle il ne sera presque pas question ici de tests, d’estimateurs, de prévision statistique. Un cours orienté « utilisateur » on cherche à la fois à savoir utiliser les méthodes d’analyse de données, et à comprendre les fondements mathématiques de ces méthodes. Notation – 3/4 analyse d’un jeu de données – 1/4 (petite) démonstration mathématique Références Ces références sont données à titre indicatif ; aucun livre n’est demandé pour ce cours. Base du cours Gilbert Saporta, Probabilités, analyse des données et statistique, 3ème édition, Technip, 2011. Un cours appliqué aux données financières ce cours est avant tout un cours de méthode ; la plupart des exemples abordés ne seront pas issus de cette application. Version plus simple Jean-Marie Bouroche et Gilbert Saporta, L’analyse des données, Que Sais-je ?, Presses Universitaires de France, 2010. Un cours « pratique » Les contraintes d’effectif et de matériel ne permettent pas d’effectuer des travaux pratiques. Logiciel de traitement de données Les tables et graphiques présentés dans le cours et les TD sont produits par le logiciel R (à l’aide du paquetage ade4). R est un logiciel libre (et donc gratuit) disponible pour Windows, Mac OS X et Linux à l’adresse http://www.r-project.org. Outils utilisés Statistiques élémentaires on calcule des moyennes, variances corrélations... Statistiques inférentielles on utilisera quelques tests statistiques. Matrices les tableaux de données sont vus comme des matrices : opérations élémentaires, vecteurs propres, valeurs propres... Archives de ce cours disponibles à cours, TD avec corrigé, données sont https://who.rocq.inria.fr/Jean-Marc.Lasgouttes/ ana-donnees/ Espaces métriques les données sont aussi vues comme des nuages de points en grande dimension : produits scalaires, normes, orthogonalité... Attention les étudiants sont supposés comprendre le calcul matriciel (notamment valeurs propres) et les normes les TD et examens comporteront du calcul matriciel et des calculs géométriques ! Organisation du cours Durée 12 semaines – jusqu’aux vacances de la Toussaint : analyse en composantes principales (6 semaines) – une semaine de vacances – au retour de vacances : contrôle sur l’analyse des variables quantitatives (ACP) (annulé cette année) – jusqu’aux vacances de Noël : analyse factorielle des correspondances, analyse des correspondances multiples (6 semaines) – janvier : examen sur l’analyse des variables qualitatives seulement (AFC et ACM) tout le cours (ACP, AFC et ACM) – juin : rattrapage (pour les malchanceux) sur tout le cours (ACP, AFC et ACM). Type de cours pour chacune des deux périodes – d’abord surtout du cours magistral – quand les méthodes sont en place, surtout TD 2 Cours d’analyse de données — Jean-Marc Lasgouttes — année 2016-2017.