Introduction au cours d`analyse de données

Transcription

Introduction au cours d`analyse de données
Introduction au cours d’analyse de données
Jean-Marc Lasgouttes — Inria Paris
[email protected]
https://who.rocq.inria.fr/Jean-Marc.Lasgouttes/ana-donnees/
Exemple : la température en France
ajac
ange
ango
besa
biar
bord
bres
cler
dijo
embr
gren
lill
limo
lyon
mars
mont
nanc
nant
nice
nime
orle
pari
perp
reim
renn
roue
stqu
stra
toul
tlse
tour
vich
janv
7.7
4.2
4.6
1.1
7.6
5.6
6.1
2.6
1.3
0.5
1.5
2.4
3.1
2.1
5.5
5.6
0.8
5.0
7.5
5.7
2.7
3.4
7.5
1.9
4.8
3.4
2.0
0.4
8.6
4.7
3.5
2.4
fev
8.7
4.9
5.4
2.2
8.0
6.6
5.8
3.7
2.6
1.6
3.2
2.9
3.9
3.3
6.6
6.7
1.6
5.3
8.5
6.8
3.6
4.1
8.4
2.8
5.3
3.9
2.9
1.5
9.1
5.6
4.4
3.4
mars
10.5
7.9
8.9
6.4
10.8
10.3
7.8
7.5
6.9
5.7
7.7
6.0
7.4
7.7
10.0
9.9
5.5
8.4
10.8
10.1
6.9
7.6
11.3
6.2
7.9
6.8
6.3
5.6
11.2
9.2
7.7
7.1
avri
12.6
10.4
11.3
9.7
12.0
12.8
9.2
10.3
10.4
9.0
10.6
8.9
9.9
10.9
13.0
12.8
9.2
10.8
13.3
13.0
9.8
10.7
13.9
9.4
10.1
9.5
9.2
9.8
13.4
11.6
10.6
9.9
mai
15.9
13.6
14.5
13.6
14.7
15.8
11.6
13.8
14.3
13.0
14.5
12.4
13.3
14.9
16.8
16.2
13.3
13.9
16.7
16.6
13.4
14.3
17.1
13.3
13.1
12.9
12.7
14.0
16.6
14.9
13.9
13.6
juin
19.8
17.0
17.2
16.9
17.8
19.3
14.4
17.3
17.7
16.4
17.8
15.3
16.8
18.5
20.8
20.1
16.5
17.2
20.1
20.8
16.6
17.5
21.1
16.4
16.2
15.7
15.6
17.2
20.2
18.7
17.4
17.1
juil
22.0
18.7
19.5
18.7
19.7
20.9
15.6
19.4
19.6
18.9
20.1
17.1
18.4
20.7
23.3
22.7
18.3
18.8
22.7
23.6
18.4
19.1
23.8
18.3
17.9
17.6
17.4
19.0
22.6
20.9
19.1
19.3
aout
22.2
18.4
19.4
18.3
19.9
21.0
16.0
19.1
19.0
18.3
19.5
17.1
17.8
20.1
22.8
22.3
17.7
18.6
22.5
22.9
18.2
18.7
23.3
17.9
17.8
17.2
17.4
18.3
22.4
20.9
18.7
18.8
sept
20.3
16.1
16.9
15.5
18.5
18.6
14.7
16.2
15.9
15.3
16.7
14.7
15.3
16.9
19.9
19.3
14.7
16.4
20.3
19.7
15.6
16.0
20.5
15.1
15.7
15.0
15.0
15.1
20.5
18.3
16.2
16.0
oct
16.3
11.7
12.5
10.4
14.8
13.8
12.0
11.2
10.5
10.1
11.4
10.4
10.7
11.4
15.0
14.6
9.4
12.2
16.0
14.6
10.9
11.4
15.9
10.3
11.6
11.0
10.5
9.5
16.5
13.3
11.7
11.0
nov
11.8
7.6
8.1
5.7
10.9
9.1
9.0
6.6
5.7
4.6
6.5
6.1
6.7
6.7
10.2
10.0
5.2
8.2
11.5
9.8
6.6
7.1
11.5
6.1
7.8
6.8
6.1
4.9
12.6
8.6
7.2
6.6
Variables ensemble de caractéristiques d’une population.
– quantitatives : nombres sur lesquels les opérations
usuelles (somme, moyenne,...) ont un sens ; elles peuvent
être discrètes (ex : nombre d’éléments dans un ensemble)
ou continues (ex : prix, taille) ;
– qualitatives : appartenance à une catégorie donnée ; elles
peuvent être nominales (ex : sexe, CSP) ou ordinales
quand les catégories sont ordonnées (ex : très résistant,
assez résistant, peu résistant).
dec
8.7
4.9
5.3
2.0
8.2
6.2
7.0
3.6
2.1
0.5
2.3
3.5
3.8
3.1
6.9
6.5
1.8
5.5
8.2
6.5
3.6
4.3
8.6
3.0
5.4
4.3
3.1
1.3
9.7
5.5
4.3
3.4
L’analyse de données
But synthétiser, structurer l’information contenue dans
des données multidimensionnelles (n individus, p variables).
Deux groupes de méthodes
– méthodes de classification : réduire la taille de l’ensemble des individus en formant des groupes homogènes ;
– méthodes factorielles : réduire le nombre de variables
en les résumant par un petit nombre de composantes
synthétiques.
La température en France (2)
Deux types de méthodes factorielles
– analyse en composantes principales : variables numériques ;
– analyse des correspondances : variables qualitatives.
d=2
bres
nanc
embr
lill
stqu
stra
reim besa
roue
orle
limo
dijo
vich
cler gren
renn
pari
angetour
lyon
nant
ango
But du cours
lill
stqu
roue
reim
pari
nanc
Méthodes couvertes par le cours
– analyse en composantes principales (ACP) ;
– analyse (factorielle) des correspondances (AFC) ;
– analyse des correspondances multiples (ACM).
stra
bres
renn
ange
tlse
orle
tour
dijo besa
nant
bord
biar
ango limo
vich
cler
bord
nime
mars
toul
perp
biar
Compétences recherchées
– comprendre les fondements mathématiques des méthodes ;
– savoir interpréter les tables et graphiques issus de ces
méthodes ;
– être capable de mener soi-même une telle étude.
embr
ajac
nice
lyon
gren
mont
nime
mont mars
toul
tlse
nice
perp
Individus et variables
Population
lyse.
groupe ou ensemble d’individus que l’on ana-
Recensement étude de tous les individus d’une population
donnée.
Sondage étude d’une partie seulement d’une population
appelée échantillon.
1
Ce que ce cours n’est pas
Un cours de mathématiques financières il n’y a pas de
modèles probabilistes de processus financiers (cours de
bourse...).
Un cours de statistique inférentielle il ne sera presque pas
question ici de tests, d’estimateurs, de prévision statistique.
Un cours orienté « utilisateur » on cherche à la fois à
savoir utiliser les méthodes d’analyse de données, et à comprendre les fondements mathématiques de ces méthodes.
Notation
– 3/4 analyse d’un jeu de données
– 1/4 (petite) démonstration mathématique
Références
Ces références sont données à titre indicatif ; aucun livre
n’est demandé pour ce cours.
Base du cours Gilbert Saporta, Probabilités, analyse des
données et statistique, 3ème édition, Technip, 2011.
Un cours appliqué aux données financières ce cours est
avant tout un cours de méthode ; la plupart des exemples
abordés ne seront pas issus de cette application.
Version plus simple Jean-Marie Bouroche et Gilbert Saporta, L’analyse des données, Que Sais-je ?, Presses Universitaires de France, 2010.
Un cours « pratique » Les contraintes d’effectif et de
matériel ne permettent pas d’effectuer des travaux pratiques.
Logiciel de traitement de données Les tables et graphiques présentés dans le cours et les TD sont produits
par le logiciel R (à l’aide du paquetage ade4). R est un logiciel libre (et donc gratuit) disponible pour Windows, Mac
OS X et Linux à l’adresse http://www.r-project.org.
Outils utilisés
Statistiques élémentaires on calcule des moyennes, variances corrélations...
Statistiques inférentielles on utilisera quelques tests statistiques.
Matrices les tableaux de données sont vus comme des
matrices : opérations élémentaires, vecteurs propres, valeurs
propres...
Archives de ce cours
disponibles à
cours, TD avec corrigé, données sont
https://who.rocq.inria.fr/Jean-Marc.Lasgouttes/
ana-donnees/
Espaces métriques les données sont aussi vues comme des
nuages de points en grande dimension : produits scalaires,
normes, orthogonalité...
Attention les étudiants sont supposés comprendre le calcul
matriciel (notamment valeurs propres) et les normes
les TD et examens comporteront du calcul
matriciel et des calculs géométriques !
Organisation du cours
Durée 12 semaines
– jusqu’aux vacances de la Toussaint : analyse en composantes principales (6 semaines)
– une semaine de vacances
– au retour de vacances : contrôle sur l’analyse des
variables quantitatives (ACP) (annulé cette année)
– jusqu’aux vacances de Noël : analyse factorielle des
correspondances, analyse des correspondances multiples
(6 semaines)
– janvier : examen sur l’analyse des variables qualitatives
seulement (AFC et ACM) tout le cours (ACP, AFC et
ACM)
– juin : rattrapage (pour les malchanceux) sur tout le
cours (ACP, AFC et ACM).
Type de cours pour chacune des deux périodes
– d’abord surtout du cours magistral
– quand les méthodes sont en place, surtout TD
2
Cours d’analyse de données — Jean-Marc Lasgouttes — année 2016-2017.