La théorie de l`apprentissage statistique, eldorado des

Transcription

La théorie de l’apprentissage statistique,
eldorado des mathématiques de la prédiction.
Nicolas Vayatis
CMLA - Ecole Normale Supérieure de Cachan
Journée TIPE ENSTA - UPS 2012
Programme de l’exposé
1
Introduction
I
Quelques problèmes concrets
I
Formalisme de la classification et limites des approches ”classiques”
2
La théorie de l’apprentissage statistique
3
Des mesures de complexité
4
Conclusion
I
Quelques sujets d’actualité
I
Discussion
1. Introduction
Quelques problèmes concrets
Exemple I - Le scoring pour l’attribution d’un crédit
Crédit - nature des données
Collecte des données par questionnaire
Facteurs socio-économiques et historique bancaire
I
I
I
I
I
I
^ge
a
code postal résidence
CSP
revenus
ancienneté dans l’agence bancaire
...
Matrice des données
I
I
Lignes/Enregistrements : no i de l’emprunteur
Colonnes/Variables : valeurs de la caractéristique j
Décision/Prédiction : bon payeur vs. mauvais payeur
Exemple II - Le diagnostic médical
Diagnostic médical - nature des données
Réalisation de tests médicaux et résultats de questionnaires
Analyses et bilan médical
I
I
I
I
^ge
a
pression artérielle
glycémie
...
I
I
Lignes/Enregistrements : no i du patient
Colonnes/Variables : valeurs de la caractéristique j
Décision/Prédiction : sain vs. malade
Exemple III - La reconnaissance de caractères manuscrits
Base de données USPS
Caractères - nature des données
Images digitales noir et blanc 16 × 16 pixels
Grands vecteurs binaires dans {0, 1}256
I
I
Lignes/Enregistrements : no i de l’image
Colonnes/Variables : valeurs binaires du pixel j
Décision/Prédiction : un chiffre
Exemple IV - La lutte contre le spam
Spam - nature des données
Descripteur du message par ”sac-de-mots”
Fréquence/Occurrence de mots (∼ 1000)
I
I
I
I
I
I
business
will
money
!
free
...
I
I
Lignes/Enregistrements : no i de l’email
Colonnes/Variables : fréquences du mot j
Décision/Prédiction : spam vs. non-spam
Enjeux de la modélisation aléatoire pour la prévision
Prévoir dans des domaines où l’expert est démuni
Automatisation pour le traitement de gros volumes de données
Cohérence/Rationnalisation des processus de prise de décision
Prise en compte de toute l’information disponible
Optimisation de la performance des règles de décision
1. Introduction
Cadre de la classification binaire
Formalisme probabiliste pour la classification binaire
(X , Y ) couple aléatoire de loi de probabilité P
X vecteur aléatoire dans Rd avec d 1
Y label binaire à valeurs dans {0, +1}
Loi jointe P décrite par (PX , PY |X )
Loi marginale
PX (A) = P{X ∈ A} ,
∀A ∈ B(Rd )
Fonction de régression
η(x) = P{Y = 1 | X = x} ,
∀x ∈ Rd
Classifieurs et mesure de qualité
Règles de décision (classifieurs)
g : Rd → {0, +1}
Erreur de classification
L(g ) = P {g (X ) 6= Y } = E(I{g (X ) 6= Y })
Z
=
Rd ×{0,+1}
I{g (x) 6= y } dP(x, y )
= E η(X ) · I{g (X ) = 0} + (1 − η(X )) · I{g (X ) = 1}
Eléments optimaux pour l’erreur de classification
Règle de Bayes et erreur de Bayes
g ∗ (x) = I{η(x) > 1/2} ,
∀x ∈ Rd
L∗ := L(g ∗ ) = E{min(η(X ), 1 − η(X ))}
On montre facilement que :
L(g ) − L∗ = E | 2η(X ) − 1 | ·I{g (X ) 6= g ∗ (X )}
≥0
La construction de prédicteurs, un problème statistique
Problème : loi P inconnue
Echantillon : Dn = {(X1 , Y1 ), . . . , (Xn , Yn )} copies i.i.d. de (X , Y )
Espace de recherche : famille G de classifieurs
Algorithme/Méthode d’apprentissage ⇒ gbn (x, Dn ) ∈ G
Objectif : Rendre minimale l’erreur de classification
L(b
gn ) := P{Y 6= gbn (X , Dn ) | Dn }
Question statistique : consistance forte au sens du risque de Bayes :
p.s.
L(b
gn ) − L∗ −−→ 0 ,
n→∞ ?
Approches paramétriques pour la classification binaire
Analyse discriminante linéaire (Fischer, 1936)
I
I
I
Hypothèse de mélange gaussien
Estimation par maximum de vraisemblance + algorithme EM
Principe de plug-in
Régression logistique (Berkson, 1944)
ηθ (x)
log
= θT x ,
1 − ηθ (x)
∀x ∈ Rd
puis estimation par maximisation de la vraisemblance + algorithme de
type Newton-Raphson
Les limites des approches classiques
Lourdes hypothèses sur la loi sous-jacente
Gestion problématique des facteurs corrélés
Performance très sensible aux erreurs de modèle
Victimes du mal de Bellman en grande dimension
”Curse of dimensionality” - Bellman (1961)
Fonction f lipschitzienne de d variables
Domaine [0, 1]d
On vise une erreur de Nécessite O(−d ) évaluations
Géométrie de la boule unité
Volume d’une boule de rayon r dans Rd :
V (r , d) =
r d π d/2
dΓ(d/2)
Volume d’un hypercube de côté 2r : v (r , d) = (2r )d
Ratio quand d → ∞ :
π d/2
→0
d2d Γ(d/2)
La masse se concentre dans les coins de l’hypercube...
Une remarque - Le cas des estimateurs plug-in
Estimateur ηen = ηen (·, Dn ) de η
Classifieur plug-in : gen (x) = I{e
ηn (x) > 1/2} , ∀x ∈ Rd
On a, pour tout x tel que gen (x) 6= g ∗ (x) :
|η(x) − ηen (x)| > η(x) −
1 2
Donc, pour tout échantillon Dn :
L(e
gn ) − L∗ ≤ 2E(|η(X ) − ηen (X )| | Dn )
La classification est un problème facile !
2. L’apprentissage statistique
Grandes dates (1)
Algorithmes
I
I
I
I
I
I
Neurone formel - McCullough& Pitts (1945)
Perceptron - Rosenblatt (1957)
Réseaux de neurones et rétropropagation du gradient - Rumelhart,
Hinton & Williams (1986)
Support Vector Machines - Cortes & Vapnik - 1995
Boosting - Freund & Schapire (1990, 1995)
Bagging (1996) + Random Forests (2000) - Breiman
Grandes dates (2)
Théorie
I
I
I
I
I
I
I
I
I
I
I
Théorie des noyaux auto-reproduisants - Aronszajn (1950)
Interprétation géométrique des noyaux - Aizerman, Braverman and
Rozonoer (1964)
Convergence du Perceptron - Novikoff (1962)
Classifieur linéaire à marge optimale - Vapnik and Lerner (1963),
Vapnik & Chervonenkis (1964)
Inégalités probabilistes et concepts combinatoires - Vapnik &
Chervonenkis (1967, 1970, 1971)
Théorie de l’apprentissage statistique - Vapnik (1982, 1995, 1998)
Théorie de l’apprenabilité - Valiant (1984)
Processus empiriques - Pollard (1984), Dudley (1984)
Approximation universelle par RN - Cybenko (1989)
Inégalités de concentration - Ledoux & Talagrand (1991)
Théorie de la classification - Devroye, Györfi & Lugosi (1996)
Idées-forces de l’apprentissage statistique
Accent sur la prédiction et non sur l’estimation de la loi sous-jacente
Principe de minimisation de fonctionnelles (risques) empiriques
Approche non-paramétrique numériquement plausible en grande
dimension
Résultats de convergence et vitesses non-asymptotiques
Caractérisations combinatoires et géométriques des classes de
fonctions
Principe fondamental - Minimisation du Risque Empirique
(MRE)
Données : (X1 , Y1 ), . . . , (Xn , Yn ) copies i.i.d. de (X , Y )
Espace de recherche : famille G de classifieurs
Principe de MRE :
n
1X
b
Ln (g ) :=
I{g (Xi ) 6= Yi } ,
n
gbn = arg min b
Ln (g )
g ∈G
i=1
Question statistique : consistance forte au sens du risque de Bayes
p.s.
L(b
gn ) − L∗ −−→ 0 ,
n → ∞?
Dilemme ”Biais/Variance”
Décomposition de l’excès de risque
L(b
gn ) − L∗ = L(b
gn ) − inf L(g ) + inf L(g ) − L∗
g ∈G
g ∈G
|
{z
}
{z
}
|
”variance”
”biais”
Contrôle de l’erreur d’estimation
L(b
gn ) − inf L(g ) ≤ 2 sup | b
Ln (g ) − L(g ) |
g ∈G
g ∈G
Techniques mathématiques :
I
I
I
lois uniformes des grands nombres
processus empiriques
inégalités de concentration
Clé du succès : le contrôle de la complexité de G
S’il n’y a pas de restriction sur g , alors :
p.s.
sup | b
Ln (g ) − L(g ) |−−→ 1 ,
n→∞
g ∈G
S’il y a un seul élément, alors on a :
p.s.
|b
Ln (g ) − L(g ) |−−→ 0 ,
n→∞
d’après la Loi Forte des Grands Nombres.
Questions : Conditions sur G garantissant la convergence uniforme ?
Statistique de Kolmogorov-Smirnov
Soit Z1 , . . . , Zn v.a. sur R i.i.d. de fdr F continue
Rappel : F (x) = P{X ≤ x} ,
x ∈R
On note F̂n la fonction de répartition empirique
Statistique de Kolmogorov-Smirnov
Dn (F ) = sup |F̂n (x) − F (x)|
x∈R
Statistique de Kolmogorov-Smirnov (suite)
Loi limite (Kolmogorov, 1936 - Smirnov, 1936)
k=+∞
X
√
2 2
lim PF { nDn (F ) ≤ t} =
(−1)k e −2k t ,
n→∞
∀t > 0
k=−∞
Inégalité probabiliste (Massart, 1990)
√
2
PF
n sup |F̂n (x) − F (x)| > t ≤ 2e −2t ,
x∈R
Loi limite et vitesse de convergence universelles
∀t > 0
Contrôle du processus empirique
Processus stochastique : soit Z1 , . . . , Zn i.i.d. de loi P
n
b ω (C )) − P(C ) :=
(C , ω) 7→ (P
n
1X
I{Zi (ω) ∈ C } − P(C )
n
i=1
indexé par C ∈ C
Cas fini : |C| < +∞
√
2
b
P
n sup |Pn (C ) − P(C )| > t ≤ 2|C|e −2t ,
C ∈C
( borne de la réunion + inégalité de Hoeffding (1963) )
∀t > 0
Inégalité de concentration (McDiarmid, 1989)
Soit f fonctions aux différences bornées : ∀i , ∃ci tel que
sup
z1 ,...,zn ,zi0
|f (z1 , . . . , zn ) − f (z1 , . . . , zi−1 , zi0 , zi+1 , . . . , zn )| ≤ ci
Alors, pour Z1 , . . . , Zn i.i.d et pour tout t > 0 :
P{| f (Z1 , . . . , Zn ) − E(f (Z1 , . . . , Zn )) |> t} ≤ 2 exp(−2t 2 /
X
i
On applique l’inégalité avec :
bn (C ) − P(C )|
f (Z1 , . . . , Zn ) = sup |P
C ∈C
et on a : ci = 1/n
ci2 )
Borne combinatoire sur l’espérance
Coefficient d’éclatement
s(C, n) = max | {{z1 , . . . , zn } ∩ C : C ∈ C} |
z1 ,...,zn
Théorème (Vapnik-Chervonenkis, 1971)
b
E sup |Pn (C ) − P(C )| ≤ 2
C ∈C
s
log 2s(C, n)
n
Corollaire : avec une probabilité supérieure à 1 − δ,
s
r
log 2s(C, n)
log(2/δ)
L(b
gn ) − inf L(g ) ≤ 4
+
g ∈G
n
2n
Etapes de la preuve du théorème
1
Double symétrisation :
I
I
I
Z10 , . . . , Zn0 i.i.d. de loi P et indépendants de Z1 , . . . , Zn
1 , . . . , n i.i.d. Rademacher : P(1 = ±1) = 1/2
1 , . . . , n indépendants de Z1 , . . . , Zn , Z10 , . . . , Zn0
b
E sup |Pn (C ) − P(C )|
C ∈C
!
n
1 X
≤ E sup i I{Zi ∈ C } − I{Zi0 ∈ C } n
C ∈C
i=1
2
3
Dénombrement : le vecteur des bi = I{Zi ∈ C } − I{Zi0 ∈ C } peut
prendre au plus s(C, n) valeurs
Majoration de l’espérance du maximum de N = s(C, n) variables
bornées (donc sous-gaussiennes)
3. Mesures de complexité
Complexités combinatoires de Vapnik-Chervonenkis (1967,
1970, ...)
Vapnik et Chervonenkis à Londres en 1998
Capacité combinatoire : VC dimension
Définition : VC dimension d’une classe C d’ensembles de Rd
V := V (C) = max{n ∈ N : s(C, n) = 2n }
Exemple : demi-plans sur R2 , V ≥ 2
Propriétés de la VC dimension
Relation entre VC dimension et coef. d’éclatement
V X
n
s(C, n) ≤
≤ (n + 1)V ,
i
∀n
i=0
( Lemme combinatoire de Sauer )
Remarque : Le coefficient d’éclatement subit une transition de phase
pour n = V .
Conséquence :
s
V
log
n
+
1)
+ log 2
bn (C ) − P(C )| ≤ 2
E sup |P
n
C ∈C
Exemples de VC dimension (1)
Demi-droites sur R : V = 2
Intervalles sur R : V = 2
Demi-espaces dans Rd : V = d + 1
Exemples de VC dimension (2)
Hyperrectangles dans Rd : V = 2d
Polygones convexes dans R2 : V = +∞
C = {{x ∈ [0, 1] : sin(ωx) > 0} : ω ∈ [0, 2π[} sur R : V = +∞
Faiblesses de la VC dimension
Difficile à calculer en général
On a généralement des bornes supérieures
Notion ”distribution-free” ⇒ elle surestime la complexité effective
En sélection de modèle, elle conduit à des choix trop conservatifs
(modèles plus simples que nécessaire)
Ne capture pas la complexité des classes de fonctions utilisées dans
les algorithmes efficaces
Complexités géométriques de Rademacher
Soit F une classe fonctionnelle...
... et les variables aléatoires
I
I
1 , . . . , n i.i.d. Rademacher : P(1 = ±1) = 1/2
X1 , . . . , Xn indépendants de 1 , . . . , n
Complexité de Rademacher :
n
1 X
Rn (F) = E sup i f (Xi )
n
f ∈F
i=1
Exemple 1 - cas du boosting
Agrégation linéaire (λ > 0) ou convexe (λ = 1)
F = λ conv(G) où G famille d’indicatrices de VC dimension V finie
On a :
s
Rn (F) ≤ λRn (G ) ≤ λ
V log n + 1) + log 2
n
Exemple 2 - cas des familles à noyau
Soit X un ensemble mesurable
K noyau défini sur X × X symétrique et positif
P
F ={f = N
j=1 αj K (xj , ·) : N ≥ 1, x1 , . . . , xN ∈ X , kf kK ≤ λ }
On a :
v
u n
X
λ u
Rn (F) ≤ Et
K (Xi , Xi )
n
i=1
d’après les inégalités de Cauchy-Schwarz et de Kahane-Khinchine
4. Conclusion
Compromis à réaliser entre underfitting et overfitting
Calibration de complexité et courbes en U
Variations autour du même thème
ERM basée sur des risques convexifiés
I
I
I
Communication des risques
Principe de contraction
Arguments issus de l’analyse convexe
Sélection de modèles par régularisation/validation croisée
I
I
I
Complexités empiriques
Inégalités de concentration avancées
Géométrie des espaces de Banach
Une branche des mathématiques désormais reconnue
Publications dans les
journaux ”must”
Cours Peccot 2011
”Sélection de modèles et
sélection d’estimateurs
pour l’apprentissage
statistique”
par Sylvain Arlot
Session ”Etats de la
Recherche” organisée par
la SMF à l’IHP en mai
2011
Quelques messages
Sur le domaine de recherche
I
La statistique mathématique a changé !
I
Les applications des maths et les données réelles ( !) comme sources
d’inspiration...
I
... mais aussi comme ouverture des maths sur le monde réel
Sur la formation
I
Recherche de doubles profils pour animer les projets actuels
I
Culture des mathématiques réellement appliquées à l’ENS de Cachan
I
Formation M2R ”MVA” Maths-Vision-Apprentissage
Quelques lectures pour aller plus loin...
Apprentissage statistique
I
Survey on classification theory, par Boucheron, Bousquet & Lugosi
(2005)
Théorie du signal
I
Compressed sensing, tutoriel par E. Candès (2006)
Optimisation
I
Convex analysis, par Boyd & Vandenberghe (2004)
Méthodes spectrales en data mining
I
Complétion de matrices de rang faible, par Candès et Recht (2009)

La théorie de l`apprentissage statistique, eldorado des

Transcription

Documents pareils

Optimisation Exercices d`application directe du cours Probl`eme

Inégalité de Young

Sortie à la journée « Antilles de Jonzac »(sup.)

Microsimulation sur le cycle de vie

Extinction en temps fini des solutions de certains probl`emes

L`Ecole Supérieure des Communications de Tunis

Hotel Le Nautile Beachfront 3* /St.Gilles-Saline-Les

NEW PROMO PUJ 24JUN 31OCT11

Sujet: Qui veut naviguer cette semaine

Faculté Jean Monnet Candidature Master 2 (DIEDF) 54 boulevard

Micro-économie approfondie Chapitre 1 : Introduction

promo ile maurice htl la plantation htl indian resort 23jan

APIMECANIC - TURBO Gestion AUTO STD - DEVIS

Concours Centrale-Supélec 2001 PC - Sujet 1 - Corrigé

CHAPITRE 2 NORMES ET TOPOLOGIE SUR Rn

Programmation Dynamique, Algorithmes Gloutons: Fin - AAC

Mondialisation et inégalité : une longue histoire

Terminaison, validité, complexité

Inégalités fonctionnelles : probabilités et EDP