La théorie de l`apprentissage statistique, eldorado des
Transcription
La théorie de l`apprentissage statistique, eldorado des
La théorie de l’apprentissage statistique, eldorado des mathématiques de la prédiction. Nicolas Vayatis CMLA - Ecole Normale Supérieure de Cachan Journée TIPE ENSTA - UPS 2012 Programme de l’exposé 1 Introduction I Quelques problèmes concrets I Formalisme de la classification et limites des approches ”classiques” 2 La théorie de l’apprentissage statistique 3 Des mesures de complexité 4 Conclusion I Quelques sujets d’actualité I Discussion 1. Introduction Quelques problèmes concrets Exemple I - Le scoring pour l’attribution d’un crédit Crédit - nature des données Collecte des données par questionnaire Facteurs socio-économiques et historique bancaire I I I I I I ^ge a code postal résidence CSP revenus ancienneté dans l’agence bancaire ... Matrice des données I I Lignes/Enregistrements : no i de l’emprunteur Colonnes/Variables : valeurs de la caractéristique j Décision/Prédiction : bon payeur vs. mauvais payeur Exemple II - Le diagnostic médical Diagnostic médical - nature des données Réalisation de tests médicaux et résultats de questionnaires Analyses et bilan médical I I I I ^ge a pression artérielle glycémie ... Matrice des données I I Lignes/Enregistrements : no i du patient Colonnes/Variables : valeurs de la caractéristique j Décision/Prédiction : sain vs. malade Exemple III - La reconnaissance de caractères manuscrits Base de données USPS Caractères - nature des données Images digitales noir et blanc 16 × 16 pixels Grands vecteurs binaires dans {0, 1}256 Matrice des données I I Lignes/Enregistrements : no i de l’image Colonnes/Variables : valeurs binaires du pixel j Décision/Prédiction : un chiffre Exemple IV - La lutte contre le spam Spam - nature des données Descripteur du message par ”sac-de-mots” Fréquence/Occurrence de mots (∼ 1000) I I I I I I business will money ! free ... Matrice des données I I Lignes/Enregistrements : no i de l’email Colonnes/Variables : fréquences du mot j Décision/Prédiction : spam vs. non-spam Enjeux de la modélisation aléatoire pour la prévision Prévoir dans des domaines où l’expert est démuni Automatisation pour le traitement de gros volumes de données Cohérence/Rationnalisation des processus de prise de décision Prise en compte de toute l’information disponible Optimisation de la performance des règles de décision 1. Introduction Cadre de la classification binaire Formalisme probabiliste pour la classification binaire (X , Y ) couple aléatoire de loi de probabilité P X vecteur aléatoire dans Rd avec d 1 Y label binaire à valeurs dans {0, +1} Loi jointe P décrite par (PX , PY |X ) Loi marginale PX (A) = P{X ∈ A} , ∀A ∈ B(Rd ) Fonction de régression η(x) = P{Y = 1 | X = x} , ∀x ∈ Rd Classifieurs et mesure de qualité Règles de décision (classifieurs) g : Rd → {0, +1} Erreur de classification L(g ) = P {g (X ) 6= Y } = E(I{g (X ) 6= Y }) Z = Rd ×{0,+1} I{g (x) 6= y } dP(x, y ) = E η(X ) · I{g (X ) = 0} + (1 − η(X )) · I{g (X ) = 1} Eléments optimaux pour l’erreur de classification Règle de Bayes et erreur de Bayes g ∗ (x) = I{η(x) > 1/2} , ∀x ∈ Rd L∗ := L(g ∗ ) = E{min(η(X ), 1 − η(X ))} On montre facilement que : L(g ) − L∗ = E | 2η(X ) − 1 | ·I{g (X ) 6= g ∗ (X )} ≥0 La construction de prédicteurs, un problème statistique Problème : loi P inconnue Echantillon : Dn = {(X1 , Y1 ), . . . , (Xn , Yn )} copies i.i.d. de (X , Y ) Espace de recherche : famille G de classifieurs Algorithme/Méthode d’apprentissage ⇒ gbn (x, Dn ) ∈ G Objectif : Rendre minimale l’erreur de classification L(b gn ) := P{Y 6= gbn (X , Dn ) | Dn } Question statistique : consistance forte au sens du risque de Bayes : p.s. L(b gn ) − L∗ −−→ 0 , n→∞ ? Approches paramétriques pour la classification binaire Analyse discriminante linéaire (Fischer, 1936) I I I Hypothèse de mélange gaussien Estimation par maximum de vraisemblance + algorithme EM Principe de plug-in Régression logistique (Berkson, 1944) ηθ (x) log = θT x , 1 − ηθ (x) ∀x ∈ Rd puis estimation par maximisation de la vraisemblance + algorithme de type Newton-Raphson Les limites des approches classiques Lourdes hypothèses sur la loi sous-jacente Gestion problématique des facteurs corrélés Performance très sensible aux erreurs de modèle Victimes du mal de Bellman en grande dimension ”Curse of dimensionality” - Bellman (1961) Fonction f lipschitzienne de d variables Domaine [0, 1]d On vise une erreur de Nécessite O(−d ) évaluations Géométrie de la boule unité Volume d’une boule de rayon r dans Rd : V (r , d) = r d π d/2 dΓ(d/2) Volume d’un hypercube de côté 2r : v (r , d) = (2r )d Ratio quand d → ∞ : π d/2 →0 d2d Γ(d/2) La masse se concentre dans les coins de l’hypercube... Une remarque - Le cas des estimateurs plug-in Estimateur ηen = ηen (·, Dn ) de η Classifieur plug-in : gen (x) = I{e ηn (x) > 1/2} , ∀x ∈ Rd On a, pour tout x tel que gen (x) 6= g ∗ (x) : |η(x) − ηen (x)| > η(x) − 1 2 Donc, pour tout échantillon Dn : L(e gn ) − L∗ ≤ 2E(|η(X ) − ηen (X )| | Dn ) La classification est un problème facile ! 2. L’apprentissage statistique Grandes dates (1) Algorithmes I I I I I I Neurone formel - McCullough& Pitts (1945) Perceptron - Rosenblatt (1957) Réseaux de neurones et rétropropagation du gradient - Rumelhart, Hinton & Williams (1986) Support Vector Machines - Cortes & Vapnik - 1995 Boosting - Freund & Schapire (1990, 1995) Bagging (1996) + Random Forests (2000) - Breiman Grandes dates (2) Théorie I I I I I I I I I I I Théorie des noyaux auto-reproduisants - Aronszajn (1950) Interprétation géométrique des noyaux - Aizerman, Braverman and Rozonoer (1964) Convergence du Perceptron - Novikoff (1962) Classifieur linéaire à marge optimale - Vapnik and Lerner (1963), Vapnik & Chervonenkis (1964) Inégalités probabilistes et concepts combinatoires - Vapnik & Chervonenkis (1967, 1970, 1971) Théorie de l’apprentissage statistique - Vapnik (1982, 1995, 1998) Théorie de l’apprenabilité - Valiant (1984) Processus empiriques - Pollard (1984), Dudley (1984) Approximation universelle par RN - Cybenko (1989) Inégalités de concentration - Ledoux & Talagrand (1991) Théorie de la classification - Devroye, Györfi & Lugosi (1996) Idées-forces de l’apprentissage statistique Accent sur la prédiction et non sur l’estimation de la loi sous-jacente Principe de minimisation de fonctionnelles (risques) empiriques Approche non-paramétrique numériquement plausible en grande dimension Résultats de convergence et vitesses non-asymptotiques Caractérisations combinatoires et géométriques des classes de fonctions Principe fondamental - Minimisation du Risque Empirique (MRE) Données : (X1 , Y1 ), . . . , (Xn , Yn ) copies i.i.d. de (X , Y ) Espace de recherche : famille G de classifieurs Principe de MRE : n 1X b Ln (g ) := I{g (Xi ) 6= Yi } , n gbn = arg min b Ln (g ) g ∈G i=1 Question statistique : consistance forte au sens du risque de Bayes p.s. L(b gn ) − L∗ −−→ 0 , n → ∞? Dilemme ”Biais/Variance” Décomposition de l’excès de risque L(b gn ) − L∗ = L(b gn ) − inf L(g ) + inf L(g ) − L∗ g ∈G g ∈G | {z } {z } | ”variance” ”biais” Contrôle de l’erreur d’estimation L(b gn ) − inf L(g ) ≤ 2 sup | b Ln (g ) − L(g ) | g ∈G g ∈G Techniques mathématiques : I I I lois uniformes des grands nombres processus empiriques inégalités de concentration Clé du succès : le contrôle de la complexité de G S’il n’y a pas de restriction sur g , alors : p.s. sup | b Ln (g ) − L(g ) |−−→ 1 , n→∞ g ∈G S’il y a un seul élément, alors on a : p.s. |b Ln (g ) − L(g ) |−−→ 0 , n→∞ d’après la Loi Forte des Grands Nombres. Questions : Conditions sur G garantissant la convergence uniforme ? Statistique de Kolmogorov-Smirnov Soit Z1 , . . . , Zn v.a. sur R i.i.d. de fdr F continue Rappel : F (x) = P{X ≤ x} , x ∈R On note F̂n la fonction de répartition empirique Statistique de Kolmogorov-Smirnov Dn (F ) = sup |F̂n (x) − F (x)| x∈R Statistique de Kolmogorov-Smirnov (suite) Loi limite (Kolmogorov, 1936 - Smirnov, 1936) k=+∞ X √ 2 2 lim PF { nDn (F ) ≤ t} = (−1)k e −2k t , n→∞ ∀t > 0 k=−∞ Inégalité probabiliste (Massart, 1990) √ 2 PF n sup |F̂n (x) − F (x)| > t ≤ 2e −2t , x∈R Loi limite et vitesse de convergence universelles ∀t > 0 Contrôle du processus empirique Processus stochastique : soit Z1 , . . . , Zn i.i.d. de loi P n b ω (C )) − P(C ) := (C , ω) 7→ (P n 1X I{Zi (ω) ∈ C } − P(C ) n i=1 indexé par C ∈ C Cas fini : |C| < +∞ √ 2 b P n sup |Pn (C ) − P(C )| > t ≤ 2|C|e −2t , C ∈C ( borne de la réunion + inégalité de Hoeffding (1963) ) ∀t > 0 Inégalité de concentration (McDiarmid, 1989) Soit f fonctions aux différences bornées : ∀i , ∃ci tel que sup z1 ,...,zn ,zi0 |f (z1 , . . . , zn ) − f (z1 , . . . , zi−1 , zi0 , zi+1 , . . . , zn )| ≤ ci Alors, pour Z1 , . . . , Zn i.i.d et pour tout t > 0 : P{| f (Z1 , . . . , Zn ) − E(f (Z1 , . . . , Zn )) |> t} ≤ 2 exp(−2t 2 / X i On applique l’inégalité avec : bn (C ) − P(C )| f (Z1 , . . . , Zn ) = sup |P C ∈C et on a : ci = 1/n ci2 ) Borne combinatoire sur l’espérance Coefficient d’éclatement s(C, n) = max | {{z1 , . . . , zn } ∩ C : C ∈ C} | z1 ,...,zn Théorème (Vapnik-Chervonenkis, 1971) b E sup |Pn (C ) − P(C )| ≤ 2 C ∈C s log 2s(C, n) n Corollaire : avec une probabilité supérieure à 1 − δ, s r log 2s(C, n) log(2/δ) L(b gn ) − inf L(g ) ≤ 4 + g ∈G n 2n Etapes de la preuve du théorème 1 Double symétrisation : I I I Z10 , . . . , Zn0 i.i.d. de loi P et indépendants de Z1 , . . . , Zn 1 , . . . , n i.i.d. Rademacher : P(1 = ±1) = 1/2 1 , . . . , n indépendants de Z1 , . . . , Zn , Z10 , . . . , Zn0 b E sup |Pn (C ) − P(C )| C ∈C ! n 1 X ≤ E sup i I{Zi ∈ C } − I{Zi0 ∈ C } n C ∈C i=1 2 3 Dénombrement : le vecteur des bi = I{Zi ∈ C } − I{Zi0 ∈ C } peut prendre au plus s(C, n) valeurs Majoration de l’espérance du maximum de N = s(C, n) variables bornées (donc sous-gaussiennes) 3. Mesures de complexité Complexités combinatoires de Vapnik-Chervonenkis (1967, 1970, ...) Vapnik et Chervonenkis à Londres en 1998 Capacité combinatoire : VC dimension Définition : VC dimension d’une classe C d’ensembles de Rd V := V (C) = max{n ∈ N : s(C, n) = 2n } Exemple : demi-plans sur R2 , V ≥ 2 Propriétés de la VC dimension Relation entre VC dimension et coef. d’éclatement V X n s(C, n) ≤ ≤ (n + 1)V , i ∀n i=0 ( Lemme combinatoire de Sauer ) Remarque : Le coefficient d’éclatement subit une transition de phase pour n = V . Conséquence : s V log n + 1) + log 2 bn (C ) − P(C )| ≤ 2 E sup |P n C ∈C Exemples de VC dimension (1) Demi-droites sur R : V = 2 Intervalles sur R : V = 2 Demi-espaces dans Rd : V = d + 1 Exemples de VC dimension (2) Hyperrectangles dans Rd : V = 2d Polygones convexes dans R2 : V = +∞ C = {{x ∈ [0, 1] : sin(ωx) > 0} : ω ∈ [0, 2π[} sur R : V = +∞ Faiblesses de la VC dimension Difficile à calculer en général On a généralement des bornes supérieures Notion ”distribution-free” ⇒ elle surestime la complexité effective En sélection de modèle, elle conduit à des choix trop conservatifs (modèles plus simples que nécessaire) Ne capture pas la complexité des classes de fonctions utilisées dans les algorithmes efficaces Complexités géométriques de Rademacher Soit F une classe fonctionnelle... ... et les variables aléatoires I I 1 , . . . , n i.i.d. Rademacher : P(1 = ±1) = 1/2 X1 , . . . , Xn indépendants de 1 , . . . , n Complexité de Rademacher : n 1 X Rn (F) = E sup i f (Xi ) n f ∈F i=1 Exemple 1 - cas du boosting Agrégation linéaire (λ > 0) ou convexe (λ = 1) F = λ conv(G) où G famille d’indicatrices de VC dimension V finie On a : s Rn (F) ≤ λRn (G ) ≤ λ V log n + 1) + log 2 n Exemple 2 - cas des familles à noyau Soit X un ensemble mesurable K noyau défini sur X × X symétrique et positif P F ={f = N j=1 αj K (xj , ·) : N ≥ 1, x1 , . . . , xN ∈ X , kf kK ≤ λ } On a : v u n X λ u Rn (F) ≤ Et K (Xi , Xi ) n i=1 d’après les inégalités de Cauchy-Schwarz et de Kahane-Khinchine 4. Conclusion Compromis à réaliser entre underfitting et overfitting Calibration de complexité et courbes en U Variations autour du même thème ERM basée sur des risques convexifiés I I I Communication des risques Principe de contraction Arguments issus de l’analyse convexe Sélection de modèles par régularisation/validation croisée I I I Complexités empiriques Inégalités de concentration avancées Géométrie des espaces de Banach Une branche des mathématiques désormais reconnue Publications dans les journaux ”must” Cours Peccot 2011 ”Sélection de modèles et sélection d’estimateurs pour l’apprentissage statistique” par Sylvain Arlot Session ”Etats de la Recherche” organisée par la SMF à l’IHP en mai 2011 Quelques messages Sur le domaine de recherche I La statistique mathématique a changé ! I Les applications des maths et les données réelles ( !) comme sources d’inspiration... I ... mais aussi comme ouverture des maths sur le monde réel Sur la formation I Recherche de doubles profils pour animer les projets actuels I Culture des mathématiques réellement appliquées à l’ENS de Cachan I Formation M2R ”MVA” Maths-Vision-Apprentissage Quelques lectures pour aller plus loin... Apprentissage statistique I Survey on classification theory, par Boucheron, Bousquet & Lugosi (2005) Théorie du signal I Compressed sensing, tutoriel par E. Candès (2006) Optimisation I Convex analysis, par Boyd & Vandenberghe (2004) Méthodes spectrales en data mining I Complétion de matrices de rang faible, par Candès et Recht (2009)