Apprentissage statistique – Stratégie du Data-Mining

Transcription

Apprentissage statistique – Stratégie du Data-Mining
Apprentissage statistique – Stratégie du
Data-Mining
Hélène Milhem
Institut de Mathématiques de Toulouse, INSA Toulouse, France
IUP SID, 2011-2012
H. Milhem (IMT, INSA Toulouse)
Apprentissage statistique
IUP SID 2011-2012
1 / 14
Apprentissage Statistique - Objectifs
Phénomène physique, biologique, financier, etc trop complexe
pour être décrit de manière déterministe. =⇒ Utilisation de
techniques statistiques d’apprentissage.
Exemple : Reconnaissance de la parole, d’images, prédiction de
données climiques, du comportement d’un client...
Techniques statistiques basées sur des modèles faisant intervenir
I
I
I
des variables explicatives
des variables à expliquer
une composante de bruit statistique
But du statisticien : estimer au mieux des paramètres du modèle
pour obtenir la meilleure fiabilité de prédiction
Mots clefs : Machine Learning, Reconnaissance de formes,
Intelligence Artificielle
H. Milhem (IMT, INSA Toulouse)
Apprentissage statistique
IUP SID 2011-2012
2 / 14
Problématique
Apprentissage Supervisé
I
I
I
I
I
Variable Y à expliquer, décrite par n individus dont on connaît p
variables explicatives synthétisées dans X .
Ensemble d’apprentissage DTrain = {(X1 , Y1 ), · · · , (Xn , Yn )}.
Connaissant DTrain , on cherche φ fonction des p prédicteurs telle
que la variable Y s’explique au mieux en fonction des p
prédicteurs : Y = φ(X ) + .
L’apprentissage est SUPERVISE puique conditionnée par la
donnée d’étiquettes (labels, valeurs...) pour chacun des n
individus : les Yi .
Exemples classiques : Modèle de régression simple, multiple, arbre
binaire de classifications, réseaux de neurones, support vector
machine, k plus proche voisins...
Aprentissage Non-Supervisé
I
I
Pas de variable Y à expliquer, mais toujours n individus décrits par
p variables chacun.
Objectif : recherche d’une taxinomie (caractéristiques communes)
des observations.
H. Milhem (IMT, INSA Toulouse)
Apprentissage statistique
IUP SID 2011-2012
3 / 14
Modélisation versus Apprentissage
Modélisation
I
I
I
I
La notion de modèle est centrale avec une finalité explicative.
But : approcher la réalité, le vrai modèle, supposé existé,
éventuellement basé sur une théorie physique, économique...
sous-jacente.
Le choix du modèle est alors guidé par des critères d’ajustement et
les décisions de validité, de présence d’effets, basées sur des tests
reposant eux-mêmes sur des hypothèses probabilistes.
L’interprétation du rôle de chaque variable explicative est
prépondérante dans la démarche.
Aprentissage
I
I
But : prédiction. Le meilleur modèle n’est pas nécessairement celui
qui ajusterait le mieux le vrai modèle.
Choix basés sur des critères de qualité de prévision visant à la
recherche de modèles parcimonieux, i.e. de complexité (nombre de
paramètres ou flexibilité limitée) dont l’interprétabilité passe au
second plan.
H. Milhem (IMT, INSA Toulouse)
Apprentissage statistique
IUP SID 2011-2012
4 / 14
Discrimination versus Régression
Différents types de variables statistiques considérées
I
I
qualitatives à valeurs dans un ensemble de cardinal fini,
quantitatives à valeurs réelles.
Certaines méthodes d’apprentissage ou de modélisation
s’adaptent à tout type de variables explicatives tandis que d’autres
sont spécialisées.
I
I
Si Y à expliquer est qualitative, on parle de discrimination,
classification ou reconnaissance de forme,
si Y est quantitative, on parle de régression.
H. Milhem (IMT, INSA Toulouse)
Apprentissage statistique
IUP SID 2011-2012
5 / 14
Statistique, informatique, taille des données
n petit ou modèle statistique des échantillons connu (hypothèses
relatives au modèle et aux distributions vérifiées) : utilisation des
techniques classiques comme modèle linéaire génralisé,
vraisemenblance,... optimale
Dans le cas contraire, d’autres méthodes viennent concurrencer
l’approche statistique classique.
Exemple : Y = φ X 1 , · · · , X p + .
I
I
I
I
Si φ linéaire et p petit : classique.
Si φ non-linéaire et n grand : possible d’estimer précisément un
nombre plus important de paramètres et donc d’envisager des
modèles plus sophistiqués.
Dans le cas d’un modèle gaussien usuel, le cas le plus simple d’un
modèle polynômial devient vite problématique : pour φ linéaire et
p = 10, il y a 210 choix de modèles.
Si en plus considération des intéractions en variable, vite un
nombre astronomique de modèles possibles : explosion
combinatoire !
H. Milhem (IMT, INSA Toulouse)
Apprentissage statistique
IUP SID 2011-2012
6 / 14
Statistique, informatique, taille des données
D’où l’implication de l’informatique dans cette problématique.
I
Le souci de calculabilité l’emporte sur la définition mathématique
du problème qui se ramène à l’optimisation d’un critère
d’ajustement de φ sur un ensemble plus ou moins riche.
I
Méthodes souvent développées dans une autre discipline :
informatique, intelligence artificielle...
I
k plus proches voisins, réseaux de neurones, arbres de décisions,
support vector machine : alternatives crédibles si n grand ou si p
très important.
H. Milhem (IMT, INSA Toulouse)
Apprentissage statistique
IUP SID 2011-2012
7 / 14
Stratégies de choix - Choix de méthode
Il n’y a pas de "meilleure méthode" !
Chacune est plus ou moins adaptée au problème posé, à la
nature des données ou encore aux propriétés de φ à approcher
ou à estimer.
Important de savoir comparer des méthodes afin de choisir la plus
pertinente.
Comparaison par estimation d’une erreur (de régression ou de
classement) : pas toujours simple à faire...
H. Milhem (IMT, INSA Toulouse)
Apprentissage statistique
IUP SID 2011-2012
8 / 14
Stratégies de choix - Choix de méthode
E QUILIBRE BIAIS / VARIANCE
Importance capitale : construire un modèle parcimonieux :
I
I
I
nombre de variables explicatives
nombre de feuilles dans un arbre
nombre de neurones dans une couche cachée
Seuls les algorihtmes de combinaison de modèles (bagging,
boosting) contournent cette étape au prix d’un accroissement
sensible des calculs et surtout de l’interprétabilité des résultats
obtenus.
Plus le modèle est complexe et meilleur sera l’ajustement aux
données : erreur faible d’ajustement. MAIS un tel modèle peut
s’avérer défaillant lors de prévisions ou de généralisations.
Plus le modèle est simple et plus la variance du modèle sera
faible. MAIS un tel modèle induit une mauvaise qualité
d’ajustement.
Objectif : optimiser un dosage entre biais et variance en contrôlant
l’ajustement aux données et la complexité du modèle.
H. Milhem (IMT, INSA Toulouse)
Apprentissage statistique
IUP SID 2011-2012
9 / 14
Stratégie du Data-Mining
Nous disposons d’un ensemble d’observations. Les caractéristiques
ou variables X = (X1 , . . . , Xp ) dites explicatives ont été observées sur
un ensemble de n objets, individus ou unités statistiques.
Premier travail : mener une exploration statistique des données.
I
I
I
I
I
I
allure des distributions,
présence de données atypiques,
corrélations et cohérence,
transformations éventuelles des données,
description multidimensionnelle,
classification.
Deuxième travail : modélisation statistique ou encore
d’apprentissage pour la prédiction d’un variable cible Y par les
variables explicatives (X1 , . . . , Xp ).
L’enchaînement de ces étapes (exploration puis apprentissage)
constitue le fondement de la fouille de données.
H. Milhem (IMT, INSA Toulouse)
Apprentissage statistique
IUP SID 2011-2012
10 / 14
Stratégie du Data-Mining
But : Déterminer la stratégie à mettre en oeuvre pour aboutir au bon
apprentissage ou au bon modèle prédictif à partir des données
observées.
Contrairement à une démarche statistique traditionnelle dans laquelle
l’observation des données est intégrée à la méthodologie
(plannification expérimentale), les données sont ici préalable à
l’analyse.
Néanmoins, il est clair que les préoccupations liées à leur analyse et à
son objectif doivent intervenir le plus en amont possible pour s’assurer
quelques chances de succès.
H. Milhem (IMT, INSA Toulouse)
Apprentissage statistique
IUP SID 2011-2012
11 / 14
Stratégie du Data-Mining
Étapes de la fouille de données
1
Extraction des données avec ou sans apprentissage : techniques
de sondage appliquées ou applicables à des bases de données.
2
Exploration des données
I
I
I
3
pour la détection de valeurs aberrantes ou seulement atypiques,
d’incohérences,
pour l’étude des distributions, des structures de corrélation,
recherche de typologies,
pour des transformations de données.
Partition aléatoire de l’échantillon (apprentissage, validation, test)
en fonction de sa taille et des techniques qui seront utilisées pour
estimer une erreur de prédiction en vue des choix de modèles,
choix et certification de méthode.
H. Milhem (IMT, INSA Toulouse)
Apprentissage statistique
IUP SID 2011-2012
12 / 14
Stratégie du Data-Mining
Étapes de la fouille de données (suite)
4. Pour chacune des méthodes considérées : modèle linéaire
général (gaussien, binomial ou poissonien), discrimination
paramétrique (linéaire ou quadratique) ou non-paramétrique, k
plus proches voisins, arbre, réseau de neurones (perceptron),
support vecteur machine, combinaison de modèles (bagging,
boosting)
I
I
estimer le modèle pour une valeur donnée d’un paramètre de
complexité : nombre de variables, de voisins, de feuilles, de
neurones, durée d’apprentissage, largeur de fenêtre...
optimiser ce paramètre (sauf pour les combinaisons de modèles
affranchies des problèmes de sur-apprentissage) en fonction de la
technique d’estimation de l’erreur retenue : échantillon de
validation, validation croisée, approximation par pénalisation de
l’erreur d’ajustement.
H. Milhem (IMT, INSA Toulouse)
Apprentissage statistique
IUP SID 2011-2012
13 / 14
Stratégie du Data-Mining
Étapes de la fouille de données (suite et fin)
5. Comparaison des modèles optimaux obtenus (un par méthode)
par estimation de l’erreur de prédiction sur l’échantillon test ou, si
la présence d’un échantillon test est impossible, sur le critère de
pénalisation de l’erreur (Akaike par exemple) s’il en existe une
version pour chacune des méthodes considérées.
6. Itération éventuelle de la démarche précédente (validation
croisée), si l’échantillon test est trop réduit, depuis l’étape 3.
Partitions aléatoires successives de l’échantillon pour moyenner
sur plusieurs cas l’estimation finale de l’erreur de prédiction et
s’assurer de la robustesse du modèle obtenu.
7. Choix de la méthode retenue en fonction de ses capacités de
prédiction, de sa robustesse mais aussi, éventuellement, de
l’interprétabilité du modèle obtenu.
H. Milhem (IMT, INSA Toulouse)
Apprentissage statistique
IUP SID 2011-2012
14 / 14