Apprentissage statistique – Stratégie du Data-Mining
Transcription
Apprentissage statistique – Stratégie du Data-Mining
Apprentissage statistique – Stratégie du Data-Mining Hélène Milhem Institut de Mathématiques de Toulouse, INSA Toulouse, France IUP SID, 2011-2012 H. Milhem (IMT, INSA Toulouse) Apprentissage statistique IUP SID 2011-2012 1 / 14 Apprentissage Statistique - Objectifs Phénomène physique, biologique, financier, etc trop complexe pour être décrit de manière déterministe. =⇒ Utilisation de techniques statistiques d’apprentissage. Exemple : Reconnaissance de la parole, d’images, prédiction de données climiques, du comportement d’un client... Techniques statistiques basées sur des modèles faisant intervenir I I I des variables explicatives des variables à expliquer une composante de bruit statistique But du statisticien : estimer au mieux des paramètres du modèle pour obtenir la meilleure fiabilité de prédiction Mots clefs : Machine Learning, Reconnaissance de formes, Intelligence Artificielle H. Milhem (IMT, INSA Toulouse) Apprentissage statistique IUP SID 2011-2012 2 / 14 Problématique Apprentissage Supervisé I I I I I Variable Y à expliquer, décrite par n individus dont on connaît p variables explicatives synthétisées dans X . Ensemble d’apprentissage DTrain = {(X1 , Y1 ), · · · , (Xn , Yn )}. Connaissant DTrain , on cherche φ fonction des p prédicteurs telle que la variable Y s’explique au mieux en fonction des p prédicteurs : Y = φ(X ) + . L’apprentissage est SUPERVISE puique conditionnée par la donnée d’étiquettes (labels, valeurs...) pour chacun des n individus : les Yi . Exemples classiques : Modèle de régression simple, multiple, arbre binaire de classifications, réseaux de neurones, support vector machine, k plus proche voisins... Aprentissage Non-Supervisé I I Pas de variable Y à expliquer, mais toujours n individus décrits par p variables chacun. Objectif : recherche d’une taxinomie (caractéristiques communes) des observations. H. Milhem (IMT, INSA Toulouse) Apprentissage statistique IUP SID 2011-2012 3 / 14 Modélisation versus Apprentissage Modélisation I I I I La notion de modèle est centrale avec une finalité explicative. But : approcher la réalité, le vrai modèle, supposé existé, éventuellement basé sur une théorie physique, économique... sous-jacente. Le choix du modèle est alors guidé par des critères d’ajustement et les décisions de validité, de présence d’effets, basées sur des tests reposant eux-mêmes sur des hypothèses probabilistes. L’interprétation du rôle de chaque variable explicative est prépondérante dans la démarche. Aprentissage I I But : prédiction. Le meilleur modèle n’est pas nécessairement celui qui ajusterait le mieux le vrai modèle. Choix basés sur des critères de qualité de prévision visant à la recherche de modèles parcimonieux, i.e. de complexité (nombre de paramètres ou flexibilité limitée) dont l’interprétabilité passe au second plan. H. Milhem (IMT, INSA Toulouse) Apprentissage statistique IUP SID 2011-2012 4 / 14 Discrimination versus Régression Différents types de variables statistiques considérées I I qualitatives à valeurs dans un ensemble de cardinal fini, quantitatives à valeurs réelles. Certaines méthodes d’apprentissage ou de modélisation s’adaptent à tout type de variables explicatives tandis que d’autres sont spécialisées. I I Si Y à expliquer est qualitative, on parle de discrimination, classification ou reconnaissance de forme, si Y est quantitative, on parle de régression. H. Milhem (IMT, INSA Toulouse) Apprentissage statistique IUP SID 2011-2012 5 / 14 Statistique, informatique, taille des données n petit ou modèle statistique des échantillons connu (hypothèses relatives au modèle et aux distributions vérifiées) : utilisation des techniques classiques comme modèle linéaire génralisé, vraisemenblance,... optimale Dans le cas contraire, d’autres méthodes viennent concurrencer l’approche statistique classique. Exemple : Y = φ X 1 , · · · , X p + . I I I I Si φ linéaire et p petit : classique. Si φ non-linéaire et n grand : possible d’estimer précisément un nombre plus important de paramètres et donc d’envisager des modèles plus sophistiqués. Dans le cas d’un modèle gaussien usuel, le cas le plus simple d’un modèle polynômial devient vite problématique : pour φ linéaire et p = 10, il y a 210 choix de modèles. Si en plus considération des intéractions en variable, vite un nombre astronomique de modèles possibles : explosion combinatoire ! H. Milhem (IMT, INSA Toulouse) Apprentissage statistique IUP SID 2011-2012 6 / 14 Statistique, informatique, taille des données D’où l’implication de l’informatique dans cette problématique. I Le souci de calculabilité l’emporte sur la définition mathématique du problème qui se ramène à l’optimisation d’un critère d’ajustement de φ sur un ensemble plus ou moins riche. I Méthodes souvent développées dans une autre discipline : informatique, intelligence artificielle... I k plus proches voisins, réseaux de neurones, arbres de décisions, support vector machine : alternatives crédibles si n grand ou si p très important. H. Milhem (IMT, INSA Toulouse) Apprentissage statistique IUP SID 2011-2012 7 / 14 Stratégies de choix - Choix de méthode Il n’y a pas de "meilleure méthode" ! Chacune est plus ou moins adaptée au problème posé, à la nature des données ou encore aux propriétés de φ à approcher ou à estimer. Important de savoir comparer des méthodes afin de choisir la plus pertinente. Comparaison par estimation d’une erreur (de régression ou de classement) : pas toujours simple à faire... H. Milhem (IMT, INSA Toulouse) Apprentissage statistique IUP SID 2011-2012 8 / 14 Stratégies de choix - Choix de méthode E QUILIBRE BIAIS / VARIANCE Importance capitale : construire un modèle parcimonieux : I I I nombre de variables explicatives nombre de feuilles dans un arbre nombre de neurones dans une couche cachée Seuls les algorihtmes de combinaison de modèles (bagging, boosting) contournent cette étape au prix d’un accroissement sensible des calculs et surtout de l’interprétabilité des résultats obtenus. Plus le modèle est complexe et meilleur sera l’ajustement aux données : erreur faible d’ajustement. MAIS un tel modèle peut s’avérer défaillant lors de prévisions ou de généralisations. Plus le modèle est simple et plus la variance du modèle sera faible. MAIS un tel modèle induit une mauvaise qualité d’ajustement. Objectif : optimiser un dosage entre biais et variance en contrôlant l’ajustement aux données et la complexité du modèle. H. Milhem (IMT, INSA Toulouse) Apprentissage statistique IUP SID 2011-2012 9 / 14 Stratégie du Data-Mining Nous disposons d’un ensemble d’observations. Les caractéristiques ou variables X = (X1 , . . . , Xp ) dites explicatives ont été observées sur un ensemble de n objets, individus ou unités statistiques. Premier travail : mener une exploration statistique des données. I I I I I I allure des distributions, présence de données atypiques, corrélations et cohérence, transformations éventuelles des données, description multidimensionnelle, classification. Deuxième travail : modélisation statistique ou encore d’apprentissage pour la prédiction d’un variable cible Y par les variables explicatives (X1 , . . . , Xp ). L’enchaînement de ces étapes (exploration puis apprentissage) constitue le fondement de la fouille de données. H. Milhem (IMT, INSA Toulouse) Apprentissage statistique IUP SID 2011-2012 10 / 14 Stratégie du Data-Mining But : Déterminer la stratégie à mettre en oeuvre pour aboutir au bon apprentissage ou au bon modèle prédictif à partir des données observées. Contrairement à une démarche statistique traditionnelle dans laquelle l’observation des données est intégrée à la méthodologie (plannification expérimentale), les données sont ici préalable à l’analyse. Néanmoins, il est clair que les préoccupations liées à leur analyse et à son objectif doivent intervenir le plus en amont possible pour s’assurer quelques chances de succès. H. Milhem (IMT, INSA Toulouse) Apprentissage statistique IUP SID 2011-2012 11 / 14 Stratégie du Data-Mining Étapes de la fouille de données 1 Extraction des données avec ou sans apprentissage : techniques de sondage appliquées ou applicables à des bases de données. 2 Exploration des données I I I 3 pour la détection de valeurs aberrantes ou seulement atypiques, d’incohérences, pour l’étude des distributions, des structures de corrélation, recherche de typologies, pour des transformations de données. Partition aléatoire de l’échantillon (apprentissage, validation, test) en fonction de sa taille et des techniques qui seront utilisées pour estimer une erreur de prédiction en vue des choix de modèles, choix et certification de méthode. H. Milhem (IMT, INSA Toulouse) Apprentissage statistique IUP SID 2011-2012 12 / 14 Stratégie du Data-Mining Étapes de la fouille de données (suite) 4. Pour chacune des méthodes considérées : modèle linéaire général (gaussien, binomial ou poissonien), discrimination paramétrique (linéaire ou quadratique) ou non-paramétrique, k plus proches voisins, arbre, réseau de neurones (perceptron), support vecteur machine, combinaison de modèles (bagging, boosting) I I estimer le modèle pour une valeur donnée d’un paramètre de complexité : nombre de variables, de voisins, de feuilles, de neurones, durée d’apprentissage, largeur de fenêtre... optimiser ce paramètre (sauf pour les combinaisons de modèles affranchies des problèmes de sur-apprentissage) en fonction de la technique d’estimation de l’erreur retenue : échantillon de validation, validation croisée, approximation par pénalisation de l’erreur d’ajustement. H. Milhem (IMT, INSA Toulouse) Apprentissage statistique IUP SID 2011-2012 13 / 14 Stratégie du Data-Mining Étapes de la fouille de données (suite et fin) 5. Comparaison des modèles optimaux obtenus (un par méthode) par estimation de l’erreur de prédiction sur l’échantillon test ou, si la présence d’un échantillon test est impossible, sur le critère de pénalisation de l’erreur (Akaike par exemple) s’il en existe une version pour chacune des méthodes considérées. 6. Itération éventuelle de la démarche précédente (validation croisée), si l’échantillon test est trop réduit, depuis l’étape 3. Partitions aléatoires successives de l’échantillon pour moyenner sur plusieurs cas l’estimation finale de l’erreur de prédiction et s’assurer de la robustesse du modèle obtenu. 7. Choix de la méthode retenue en fonction de ses capacités de prédiction, de sa robustesse mais aussi, éventuellement, de l’interprétabilité du modèle obtenu. H. Milhem (IMT, INSA Toulouse) Apprentissage statistique IUP SID 2011-2012 14 / 14