La théorie de l`apprentissage statistique, eldorado des

Transcription

La théorie de l`apprentissage statistique, eldorado des
La théorie de l’apprentissage statistique,
eldorado des mathématiques de la prédiction.
Nicolas Vayatis
CMLA - Ecole Normale Supérieure de Cachan
Journée TIPE ENSTA - UPS 2012
Programme de l’exposé
1
Introduction
I
Quelques problèmes concrets
I
Formalisme de la classification et limites des approches ”classiques”
2
La théorie de l’apprentissage statistique
3
Des mesures de complexité
4
Conclusion
I
Quelques sujets d’actualité
I
Discussion
1. Introduction
Quelques problèmes concrets
Exemple I - Le scoring pour l’attribution d’un crédit
Crédit - nature des données
Collecte des données par questionnaire
Facteurs socio-économiques et historique bancaire
I
I
I
I
I
I
^ge
a
code postal résidence
CSP
revenus
ancienneté dans l’agence bancaire
...
Matrice des données
I
I
Lignes/Enregistrements : no i de l’emprunteur
Colonnes/Variables : valeurs de la caractéristique j
Décision/Prédiction : bon payeur vs. mauvais payeur
Exemple II - Le diagnostic médical
Diagnostic médical - nature des données
Réalisation de tests médicaux et résultats de questionnaires
Analyses et bilan médical
I
I
I
I
^ge
a
pression artérielle
glycémie
...
Matrice des données
I
I
Lignes/Enregistrements : no i du patient
Colonnes/Variables : valeurs de la caractéristique j
Décision/Prédiction : sain vs. malade
Exemple III - La reconnaissance de caractères manuscrits
Base de données USPS
Caractères - nature des données
Images digitales noir et blanc 16 × 16 pixels
Grands vecteurs binaires dans {0, 1}256
Matrice des données
I
I
Lignes/Enregistrements : no i de l’image
Colonnes/Variables : valeurs binaires du pixel j
Décision/Prédiction : un chiffre
Exemple IV - La lutte contre le spam
Spam - nature des données
Descripteur du message par ”sac-de-mots”
Fréquence/Occurrence de mots (∼ 1000)
I
I
I
I
I
I
business
will
money
!
free
...
Matrice des données
I
I
Lignes/Enregistrements : no i de l’email
Colonnes/Variables : fréquences du mot j
Décision/Prédiction : spam vs. non-spam
Enjeux de la modélisation aléatoire pour la prévision
Prévoir dans des domaines où l’expert est démuni
Automatisation pour le traitement de gros volumes de données
Cohérence/Rationnalisation des processus de prise de décision
Prise en compte de toute l’information disponible
Optimisation de la performance des règles de décision
1. Introduction
Cadre de la classification binaire
Formalisme probabiliste pour la classification binaire
(X , Y ) couple aléatoire de loi de probabilité P
X vecteur aléatoire dans Rd avec d 1
Y label binaire à valeurs dans {0, +1}
Loi jointe P décrite par (PX , PY |X )
Loi marginale
PX (A) = P{X ∈ A} ,
∀A ∈ B(Rd )
Fonction de régression
η(x) = P{Y = 1 | X = x} ,
∀x ∈ Rd
Classifieurs et mesure de qualité
Règles de décision (classifieurs)
g : Rd → {0, +1}
Erreur de classification
L(g ) = P {g (X ) 6= Y } = E(I{g (X ) 6= Y })
Z
=
Rd ×{0,+1}
I{g (x) 6= y } dP(x, y )
= E η(X ) · I{g (X ) = 0} + (1 − η(X )) · I{g (X ) = 1}
Eléments optimaux pour l’erreur de classification
Règle de Bayes et erreur de Bayes
g ∗ (x) = I{η(x) > 1/2} ,
∀x ∈ Rd
L∗ := L(g ∗ ) = E{min(η(X ), 1 − η(X ))}
On montre facilement que :
L(g ) − L∗ = E | 2η(X ) − 1 | ·I{g (X ) 6= g ∗ (X )}
≥0
La construction de prédicteurs, un problème statistique
Problème : loi P inconnue
Echantillon : Dn = {(X1 , Y1 ), . . . , (Xn , Yn )} copies i.i.d. de (X , Y )
Espace de recherche : famille G de classifieurs
Algorithme/Méthode d’apprentissage ⇒ gbn (x, Dn ) ∈ G
Objectif : Rendre minimale l’erreur de classification
L(b
gn ) := P{Y 6= gbn (X , Dn ) | Dn }
Question statistique : consistance forte au sens du risque de Bayes :
p.s.
L(b
gn ) − L∗ −−→ 0 ,
n→∞ ?
Approches paramétriques pour la classification binaire
Analyse discriminante linéaire (Fischer, 1936)
I
I
I
Hypothèse de mélange gaussien
Estimation par maximum de vraisemblance + algorithme EM
Principe de plug-in
Régression logistique (Berkson, 1944)
ηθ (x)
log
= θT x ,
1 − ηθ (x)
∀x ∈ Rd
puis estimation par maximisation de la vraisemblance + algorithme de
type Newton-Raphson
Les limites des approches classiques
Lourdes hypothèses sur la loi sous-jacente
Gestion problématique des facteurs corrélés
Performance très sensible aux erreurs de modèle
Victimes du mal de Bellman en grande dimension
”Curse of dimensionality” - Bellman (1961)
Fonction f lipschitzienne de d variables
Domaine [0, 1]d
On vise une erreur de Nécessite O(−d ) évaluations
Géométrie de la boule unité
Volume d’une boule de rayon r dans Rd :
V (r , d) =
r d π d/2
dΓ(d/2)
Volume d’un hypercube de côté 2r : v (r , d) = (2r )d
Ratio quand d → ∞ :
π d/2
→0
d2d Γ(d/2)
La masse se concentre dans les coins de l’hypercube...
Une remarque - Le cas des estimateurs plug-in
Estimateur ηen = ηen (·, Dn ) de η
Classifieur plug-in : gen (x) = I{e
ηn (x) > 1/2} , ∀x ∈ Rd
On a, pour tout x tel que gen (x) 6= g ∗ (x) :
|η(x) − ηen (x)| > η(x) −
1 2
Donc, pour tout échantillon Dn :
L(e
gn ) − L∗ ≤ 2E(|η(X ) − ηen (X )| | Dn )
La classification est un problème facile !
2. L’apprentissage statistique
Grandes dates (1)
Algorithmes
I
I
I
I
I
I
Neurone formel - McCullough& Pitts (1945)
Perceptron - Rosenblatt (1957)
Réseaux de neurones et rétropropagation du gradient - Rumelhart,
Hinton & Williams (1986)
Support Vector Machines - Cortes & Vapnik - 1995
Boosting - Freund & Schapire (1990, 1995)
Bagging (1996) + Random Forests (2000) - Breiman
Grandes dates (2)
Théorie
I
I
I
I
I
I
I
I
I
I
I
Théorie des noyaux auto-reproduisants - Aronszajn (1950)
Interprétation géométrique des noyaux - Aizerman, Braverman and
Rozonoer (1964)
Convergence du Perceptron - Novikoff (1962)
Classifieur linéaire à marge optimale - Vapnik and Lerner (1963),
Vapnik & Chervonenkis (1964)
Inégalités probabilistes et concepts combinatoires - Vapnik &
Chervonenkis (1967, 1970, 1971)
Théorie de l’apprentissage statistique - Vapnik (1982, 1995, 1998)
Théorie de l’apprenabilité - Valiant (1984)
Processus empiriques - Pollard (1984), Dudley (1984)
Approximation universelle par RN - Cybenko (1989)
Inégalités de concentration - Ledoux & Talagrand (1991)
Théorie de la classification - Devroye, Györfi & Lugosi (1996)
Idées-forces de l’apprentissage statistique
Accent sur la prédiction et non sur l’estimation de la loi sous-jacente
Principe de minimisation de fonctionnelles (risques) empiriques
Approche non-paramétrique numériquement plausible en grande
dimension
Résultats de convergence et vitesses non-asymptotiques
Caractérisations combinatoires et géométriques des classes de
fonctions
Principe fondamental - Minimisation du Risque Empirique
(MRE)
Données : (X1 , Y1 ), . . . , (Xn , Yn ) copies i.i.d. de (X , Y )
Espace de recherche : famille G de classifieurs
Principe de MRE :
n
1X
b
Ln (g ) :=
I{g (Xi ) 6= Yi } ,
n
gbn = arg min b
Ln (g )
g ∈G
i=1
Question statistique : consistance forte au sens du risque de Bayes
p.s.
L(b
gn ) − L∗ −−→ 0 ,
n → ∞?
Dilemme ”Biais/Variance”
Décomposition de l’excès de risque
L(b
gn ) − L∗ = L(b
gn ) − inf L(g ) + inf L(g ) − L∗
g ∈G
g ∈G
|
{z
}
{z
}
|
”variance”
”biais”
Contrôle de l’erreur d’estimation
L(b
gn ) − inf L(g ) ≤ 2 sup | b
Ln (g ) − L(g ) |
g ∈G
g ∈G
Techniques mathématiques :
I
I
I
lois uniformes des grands nombres
processus empiriques
inégalités de concentration
Clé du succès : le contrôle de la complexité de G
S’il n’y a pas de restriction sur g , alors :
p.s.
sup | b
Ln (g ) − L(g ) |−−→ 1 ,
n→∞
g ∈G
S’il y a un seul élément, alors on a :
p.s.
|b
Ln (g ) − L(g ) |−−→ 0 ,
n→∞
d’après la Loi Forte des Grands Nombres.
Questions : Conditions sur G garantissant la convergence uniforme ?
Statistique de Kolmogorov-Smirnov
Soit Z1 , . . . , Zn v.a. sur R i.i.d. de fdr F continue
Rappel : F (x) = P{X ≤ x} ,
x ∈R
On note F̂n la fonction de répartition empirique
Statistique de Kolmogorov-Smirnov
Dn (F ) = sup |F̂n (x) − F (x)|
x∈R
Statistique de Kolmogorov-Smirnov (suite)
Loi limite (Kolmogorov, 1936 - Smirnov, 1936)
k=+∞
X
√
2 2
lim PF { nDn (F ) ≤ t} =
(−1)k e −2k t ,
n→∞
∀t > 0
k=−∞
Inégalité probabiliste (Massart, 1990)
√
2
PF
n sup |F̂n (x) − F (x)| > t ≤ 2e −2t ,
x∈R
Loi limite et vitesse de convergence universelles
∀t > 0
Contrôle du processus empirique
Processus stochastique : soit Z1 , . . . , Zn i.i.d. de loi P
n
b ω (C )) − P(C ) :=
(C , ω) 7→ (P
n
1X
I{Zi (ω) ∈ C } − P(C )
n
i=1
indexé par C ∈ C
Cas fini : |C| < +∞
√
2
b
P
n sup |Pn (C ) − P(C )| > t ≤ 2|C|e −2t ,
C ∈C
( borne de la réunion + inégalité de Hoeffding (1963) )
∀t > 0
Inégalité de concentration (McDiarmid, 1989)
Soit f fonctions aux différences bornées : ∀i , ∃ci tel que
sup
z1 ,...,zn ,zi0
|f (z1 , . . . , zn ) − f (z1 , . . . , zi−1 , zi0 , zi+1 , . . . , zn )| ≤ ci
Alors, pour Z1 , . . . , Zn i.i.d et pour tout t > 0 :
P{| f (Z1 , . . . , Zn ) − E(f (Z1 , . . . , Zn )) |> t} ≤ 2 exp(−2t 2 /
X
i
On applique l’inégalité avec :
bn (C ) − P(C )|
f (Z1 , . . . , Zn ) = sup |P
C ∈C
et on a : ci = 1/n
ci2 )
Borne combinatoire sur l’espérance
Coefficient d’éclatement
s(C, n) = max | {{z1 , . . . , zn } ∩ C : C ∈ C} |
z1 ,...,zn
Théorème (Vapnik-Chervonenkis, 1971)
b
E sup |Pn (C ) − P(C )| ≤ 2
C ∈C
s
log 2s(C, n)
n
Corollaire : avec une probabilité supérieure à 1 − δ,
s
r
log 2s(C, n)
log(2/δ)
L(b
gn ) − inf L(g ) ≤ 4
+
g ∈G
n
2n
Etapes de la preuve du théorème
1
Double symétrisation :
I
I
I
Z10 , . . . , Zn0 i.i.d. de loi P et indépendants de Z1 , . . . , Zn
1 , . . . , n i.i.d. Rademacher : P(1 = ±1) = 1/2
1 , . . . , n indépendants de Z1 , . . . , Zn , Z10 , . . . , Zn0
b
E sup |Pn (C ) − P(C )|
C ∈C
!
n
1 X
≤ E sup i I{Zi ∈ C } − I{Zi0 ∈ C } n
C ∈C
i=1
2
3
Dénombrement : le vecteur des bi = I{Zi ∈ C } − I{Zi0 ∈ C } peut
prendre au plus s(C, n) valeurs
Majoration de l’espérance du maximum de N = s(C, n) variables
bornées (donc sous-gaussiennes)
3. Mesures de complexité
Complexités combinatoires de Vapnik-Chervonenkis (1967,
1970, ...)
Vapnik et Chervonenkis à Londres en 1998
Capacité combinatoire : VC dimension
Définition : VC dimension d’une classe C d’ensembles de Rd
V := V (C) = max{n ∈ N : s(C, n) = 2n }
Exemple : demi-plans sur R2 , V ≥ 2
Propriétés de la VC dimension
Relation entre VC dimension et coef. d’éclatement
V X
n
s(C, n) ≤
≤ (n + 1)V ,
i
∀n
i=0
( Lemme combinatoire de Sauer )
Remarque : Le coefficient d’éclatement subit une transition de phase
pour n = V .
Conséquence :
s
V
log
n
+
1)
+ log 2
bn (C ) − P(C )| ≤ 2
E sup |P
n
C ∈C
Exemples de VC dimension (1)
Demi-droites sur R : V = 2
Intervalles sur R : V = 2
Demi-espaces dans Rd : V = d + 1
Exemples de VC dimension (2)
Hyperrectangles dans Rd : V = 2d
Polygones convexes dans R2 : V = +∞
C = {{x ∈ [0, 1] : sin(ωx) > 0} : ω ∈ [0, 2π[} sur R : V = +∞
Faiblesses de la VC dimension
Difficile à calculer en général
On a généralement des bornes supérieures
Notion ”distribution-free” ⇒ elle surestime la complexité effective
En sélection de modèle, elle conduit à des choix trop conservatifs
(modèles plus simples que nécessaire)
Ne capture pas la complexité des classes de fonctions utilisées dans
les algorithmes efficaces
Complexités géométriques de Rademacher
Soit F une classe fonctionnelle...
... et les variables aléatoires
I
I
1 , . . . , n i.i.d. Rademacher : P(1 = ±1) = 1/2
X1 , . . . , Xn indépendants de 1 , . . . , n
Complexité de Rademacher :
n
1 X
Rn (F) = E sup i f (Xi )
n
f ∈F
i=1
Exemple 1 - cas du boosting
Agrégation linéaire (λ > 0) ou convexe (λ = 1)
F = λ conv(G) où G famille d’indicatrices de VC dimension V finie
On a :
s
Rn (F) ≤ λRn (G ) ≤ λ
V log n + 1) + log 2
n
Exemple 2 - cas des familles à noyau
Soit X un ensemble mesurable
K noyau défini sur X × X symétrique et positif
P
F ={f = N
j=1 αj K (xj , ·) : N ≥ 1, x1 , . . . , xN ∈ X , kf kK ≤ λ }
On a :
v
u n
X
λ u
Rn (F) ≤ Et
K (Xi , Xi )
n
i=1
d’après les inégalités de Cauchy-Schwarz et de Kahane-Khinchine
4. Conclusion
Compromis à réaliser entre underfitting et overfitting
Calibration de complexité et courbes en U
Variations autour du même thème
ERM basée sur des risques convexifiés
I
I
I
Communication des risques
Principe de contraction
Arguments issus de l’analyse convexe
Sélection de modèles par régularisation/validation croisée
I
I
I
Complexités empiriques
Inégalités de concentration avancées
Géométrie des espaces de Banach
Une branche des mathématiques désormais reconnue
Publications dans les
journaux ”must”
Cours Peccot 2011
”Sélection de modèles et
sélection d’estimateurs
pour l’apprentissage
statistique”
par Sylvain Arlot
Session ”Etats de la
Recherche” organisée par
la SMF à l’IHP en mai
2011
Quelques messages
Sur le domaine de recherche
I
La statistique mathématique a changé !
I
Les applications des maths et les données réelles ( !) comme sources
d’inspiration...
I
... mais aussi comme ouverture des maths sur le monde réel
Sur la formation
I
Recherche de doubles profils pour animer les projets actuels
I
Culture des mathématiques réellement appliquées à l’ENS de Cachan
I
Formation M2R ”MVA” Maths-Vision-Apprentissage
Quelques lectures pour aller plus loin...
Apprentissage statistique
I
Survey on classification theory, par Boucheron, Bousquet & Lugosi
(2005)
Théorie du signal
I
Compressed sensing, tutoriel par E. Candès (2006)
Optimisation
I
Convex analysis, par Boyd & Vandenberghe (2004)
Méthodes spectrales en data mining
I
Complétion de matrices de rang faible, par Candès et Recht (2009)

Documents pareils