Fouille des données - Maria Malek

Transcription

Fouille des données - Maria Malek
Fouille des données
Introduction
Maria Malek
Filière TSI
EISTI
Fouille des données – p. 1/?
Vous avez dit ?
Data Mining
?
Fouille des données – p. 2/?
Vous avez dit ?
Data Mining
?
Découverte de connaissances à partir de données ?
un processus itératif par lequel on extrait des
connaissances valides, nouvelles, potentiellement
utiles et compréhensibles [Fayyad et al., 1995]
Fouille des données – p. 2/?
Vous avez dit ?
Data Mining
?
Découverte de connaissances à partir de données ?
un processus itératif par lequel on extrait des
connaissances valides, nouvelles, potentiellement
utiles et compréhensibles [Fayyad et al., 1995]
"Comment faire parler les données ? "
Fouille des données – p. 2/?
Autour du data mining : les domaines
Apprentissage Automatique (ML)
DM : suppose la pré-existence de très grands
volumes de données Data mining.
Fouille des données – p. 3/?
Autour du data mining : les domaines
Apprentissage Automatique (ML)
DM : suppose la pré-existence de très grands
volumes de données Data mining.
Statistiques, Analyse des données
Stat : but = vérification d’hypothèses.
DM : but = découverte de nouvelles connaissances.
Fouille des données – p. 3/?
Processus du Data Mining - 1
Analyse du problème d’application.
Fouille des données – p. 4/?
Processus du Data Mining - 1
Analyse du problème d’application.
Sélection et exploration des données
évaluer la qualité des données,
visualiser, analyser les distributions et les
regroupements,
détecter les insuffisances, pathologies des données.
Fouille des données – p. 4/?
Processus du Data Mining - 1
Analyse du problème d’application.
Sélection et exploration des données
évaluer la qualité des données,
visualiser, analyser les distributions et les
regroupements,
détecter les insuffisances, pathologies des données.
Pré-traitement des données
Fouille des données – p. 4/?
Processus du Data Mining - 1
Analyse du problème d’application.
Sélection et exploration des données
évaluer la qualité des données,
visualiser, analyser les distributions et les
regroupements,
détecter les insuffisances, pathologies des données.
Pré-traitement des données
nettoyage bruit, valeurs manquantes, valeurs aberrantes,
Fouille des données – p. 4/?
Processus du Data Mining - 1
Analyse du problème d’application.
Sélection et exploration des données
évaluer la qualité des données,
visualiser, analyser les distributions et les
regroupements,
détecter les insuffisances, pathologies des données.
Pré-traitement des données
nettoyage bruit, valeurs manquantes, valeurs aberrantes,
réduction sélection des instances sélection, extraction,
combinaison des variables,
Fouille des données – p. 4/?
Processus du Data Mining - 1
Analyse du problème d’application.
Sélection et exploration des données
évaluer la qualité des données,
visualiser, analyser les distributions et les
regroupements,
détecter les insuffisances, pathologies des données.
Pré-traitement des données
nettoyage bruit, valeurs manquantes, valeurs aberrantes,
réduction sélection des instances sélection, extraction,
combinaison des variables,
transformation discrétisation des variables continues,
binarisation des variables nominales, ajout de
nouvelles variables (induction constructive).
Fouille des données – p. 4/?
Processus du Data Mining - 1
Analyse du problème d’application.
Sélection et exploration des données
évaluer la qualité des données,
visualiser, analyser les distributions et les
regroupements,
détecter les insuffisances, pathologies des données.
Pré-traitement des données
nettoyage bruit, valeurs manquantes, valeurs aberrantes,
réduction sélection des instances sélection, extraction,
combinaison des variables,
transformation discrétisation des variables continues,
binarisation des variables nominales, ajout de
nouvelles variables (induction constructive).
Fouille des données – p. 4/?
Processus du Data Mining - 4
L’apprentissage «data mining» une méthode d’extraction
de connaissances.
Fouille des données – p. 5/?
Processus du Data Mining - 4
L’apprentissage «data mining» une méthode d’extraction
de connaissances.
Evaluation et interprétation des résultats critères
différents suivant la tâche.
Fouille des données – p. 5/?
Les données ??
est un enregistrement,un individu
(statistique), une instance (orienté objet), un point, un
vecteur.
Une donnée
Fouille des données – p. 6/?
Les données ??
est un enregistrement,un individu
(statistique), une instance (orienté objet), un point, un
vecteur.
Une donnée
peut être de nature qualitative ou quantitative,
ou même un enregistrement (comme la date).
Un attribut
Fouille des données – p. 6/?
Les données ??
est un enregistrement,un individu
(statistique), une instance (orienté objet), un point, un
vecteur.
Une donnée
peut être de nature qualitative ou quantitative,
ou même un enregistrement (comme la date).
Un attribut
Structure de base : un exemple/cas/observation =
vecteur de p attributs ou variables chaque attribut prend
sa valeur dans un domaine donné.
Fouille des données – p. 6/?
Les données ??
est un enregistrement,un individu
(statistique), une instance (orienté objet), un point, un
vecteur.
Une donnée
peut être de nature qualitative ou quantitative,
ou même un enregistrement (comme la date).
Un attribut
Structure de base : un exemple/cas/observation =
vecteur de p attributs ou variables chaque attribut prend
sa valeur dans un domaine donné.
Ensemble d’attribut - valeur : Techniques de logique
d’ordre 0 ou propositionnelle.
Fouille des données – p. 6/?
Les données ??
est un enregistrement,un individu
(statistique), une instance (orienté objet), un point, un
vecteur.
Une donnée
peut être de nature qualitative ou quantitative,
ou même un enregistrement (comme la date).
Un attribut
Structure de base : un exemple/cas/observation =
vecteur de p attributs ou variables chaque attribut prend
sa valeur dans un domaine donné.
Ensemble d’attribut - valeur : Techniques de logique
d’ordre 0 ou propositionnelle.
Attributs & relations : Apprentissage relationnel &
programmation inductive logique (logique de
prédicats).
Fouille des données – p. 6/?
Les données : exemple - 1
NUM
CIEL
TEMP.
HUMI. VENT CLASSE
1
ensoleillé
élevé
forte
non
N
2
ensoleillé
élevé
forte
oui
N
3
couvert
élevé
forte
non
P
4
pluvieux moyenne
forte
non
P
5
pluvieux
basse
normale non
P
6
pluvieux
basse
normale
oui
N
7
couvert
basse
normale
oui
P
Table 1: Description des conditions météorologiques
Fouille des données – p. 7/?
Les données : exemple - 2
NUM
CIEL
TEMP.
HUMI. VENT CLASSE
8
ensoleillé moyenne
forte
non
N
9
ensoleillé
basse
normale non
P
10
pluvieux moyenne normale non
P
11
ensoleillé moyenne normale
oui
P
12
couvert moyenne
forte
oui
P
13
couvert
élevé
normale non
P
14
pluvieux moyenne
forte
oui
N
Table 2: Description des conditions météorologiques
Fouille des données – p. 8/?
Nature des variables ..
Indépendante & Dépendante
Fouille des données – p. 9/?
Nature des variables ..
Indépendante & Dépendante
Variable indépendante/explicative/prédictive
: variable dont la
valeur est obtenue par observation
Fouille des données – p. 9/?
Nature des variables ..
Indépendante & Dépendante
Variable indépendante/explicative/prédictive
: variable dont la
valeur est obtenue par observation
Variable dépendante/réponse/cible : variable dont la valeur
dépend d’autres variables
Fouille des données – p. 9/?
Nature des variables ..
Indépendante & Dépendante
Variable indépendante/explicative/prédictive
: variable dont la
valeur est obtenue par observation
Variable dépendante/réponse/cible : variable dont la valeur
dépend d’autres variables
Apprentissage supervisé & non supervisé
Fouille des données – p. 9/?
Nature des variables ..
Indépendante & Dépendante
Variable indépendante/explicative/prédictive
: variable dont la
valeur est obtenue par observation
Variable dépendante/réponse/cible : variable dont la valeur
dépend d’autres variables
Apprentissage supervisé & non supervisé
Apprentissage non supervisé : pas de variable cible ex.
regroupement (clustering).
Fouille des données – p. 9/?
Nature des variables ..
Indépendante & Dépendante
Variable indépendante/explicative/prédictive
: variable dont la
valeur est obtenue par observation
Variable dépendante/réponse/cible : variable dont la valeur
dépend d’autres variables
Apprentissage supervisé & non supervisé
Apprentissage non supervisé : pas de variable cible ex.
regroupement (clustering).
Apprentissage supervisé : une variable cible (valeur à
prédire) ex. classification.
Fouille des données – p. 9/?
Résultat du processus
Connaissances sont extraites sous forme d’un :
Fouille des données – p. 10/?
Résultat du processus
Connaissances sont extraites sous forme d’un :
modèle : un résumé global de l’ensemble de données
applicable sur n’importe quelle instance appartenant
à l’espace des données ;
Fouille des données – p. 10/?
Résultat du processus
Connaissances sont extraites sous forme d’un :
modèle : un résumé global de l’ensemble de données
applicable sur n’importe quelle instance appartenant
à l’espace des données ;
motif (pattern) : résumé local d’une région de l’espace
des données ; exemple : une règle.
Fouille des données – p. 10/?
Applications du Data Mining
Domaines supervisés :
Fouille des données – p. 11/?
Applications du Data Mining
Domaines supervisés :
Chaque instance = p variables prédictives + 1 variable cible (à
prédire)
Fouille des données – p. 11/?
Applications du Data Mining
Domaines supervisés :
Chaque instance = p variables prédictives + 1 variable cible (à
prédire)
Classification : variable
une maladie, etc.
cible discrète Exemple : diagnostiquer
Fouille des données – p. 11/?
Applications du Data Mining
Domaines supervisés :
Chaque instance = p variables prédictives + 1 variable cible (à
prédire)
Classification : variable
une maladie, etc.
Régression : variable
valeur d’un bien, etc.
cible discrète Exemple : diagnostiquer
cible continue Exemple : estimer la
Fouille des données – p. 11/?
Applications du Data Mining
Domaines supervisés :
Chaque instance = p variables prédictives + 1 variable cible (à
prédire)
Classification : variable
une maladie, etc.
Régression : variable
valeur d’un bien, etc.
cible discrète Exemple : diagnostiquer
cible continue Exemple : estimer la
Domaines non supervisés :
Fouille des données – p. 11/?
Applications du Data Mining
Domaines supervisés :
Chaque instance = p variables prédictives + 1 variable cible (à
prédire)
Classification : variable
une maladie, etc.
Régression : variable
valeur d’un bien, etc.
cible discrète Exemple : diagnostiquer
cible continue Exemple : estimer la
Domaines non supervisés :
Regroupement(clustering) Exemple : détecter le profil
utilisateur,etc.
Fouille des données – p. 11/?
Applications du Data Mining
Domaines supervisés :
Chaque instance = p variables prédictives + 1 variable cible (à
prédire)
Classification : variable
une maladie, etc.
Régression : variable
valeur d’un bien, etc.
cible discrète Exemple : diagnostiquer
cible continue Exemple : estimer la
Domaines non supervisés :
Regroupement(clustering) Exemple : détecter le profil
utilisateur,etc.
Association Exemple analyser les logs utilisateurs d’un serveur
web, etc.
Fouille des données – p. 11/?
Tâches du Data Mining
Prédiction :
Classification,
Régression,
Association.
Fouille des données – p. 12/?
Tâches du Data Mining
Prédiction :
Classification,
Régression,
Association.
Description
Visualisation,
Regroupement,
Association.
Fouille des données – p. 12/?
Conception d’un algorithme DM
Structure de modèle/motif : la forme des connaissances
à extraire des données : arbre de décision, réseau de
neurones.
Fouille des données – p. 13/?
Conception d’un algorithme DM
Structure de modèle/motif : la forme des connaissances
à extraire des données : arbre de décision, réseau de
neurones.
Fonction d’évaluation : permet de mesurer la qualité d’un
modèle ; Exemple : classification: taux d’exemples bien classés.
Fouille des données – p. 13/?
Conception d’un algorithme DM
Structure de modèle/motif : la forme des connaissances
à extraire des données : arbre de décision, réseau de
neurones.
Fonction d’évaluation : permet de mesurer la qualité d’un
modèle ; Exemple : classification: taux d’exemples bien classés.
Méthode de recherche : stratégie utilisée pour parcourir
l’espace d’hypothèses et pour trouver celle qui optimise
la fonction d’évaluation.
Fouille des données – p. 13/?
Conception d’un algorithme DM
Structure de modèle/motif : la forme des connaissances
à extraire des données : arbre de décision, réseau de
neurones.
Fonction d’évaluation : permet de mesurer la qualité d’un
modèle ; Exemple : classification: taux d’exemples bien classés.
Méthode de recherche : stratégie utilisée pour parcourir
l’espace d’hypothèses et pour trouver celle qui optimise
la fonction d’évaluation.
Stratégie de gestion des données : la façon de stocker,
d’indexer et d’accéder aux données.
Fouille des données – p. 13/?
Côté Pratique ..
Etude de la problématique de la classification
Fouille des données – p. 14/?
Côté Pratique ..
Etude de la problématique de la classification
Comment valider un classifieur.
Fouille des données – p. 14/?
Côté Pratique ..
Etude de la problématique de la classification
Comment valider un classifieur.
Etude de l’algorithme k plus proche voisins .
Fouille des données – p. 14/?
Côté Pratique ..
Etude de la problématique de la classification
Comment valider un classifieur.
Etude de l’algorithme k plus proche voisins .
Utilisation du logiciel Weka.
Fouille des données – p. 14/?
La classification
Types de classeurs
Construction d’un modèle arborescent permettant de
prédire la classe d’une donnée.
Estimation directe de la classe d’une donnée en
fonction des exemples.
Construction d’un modèle réglable par l’humain (les
réseaux de neurones, et les machines à vecteurs
supports).
Fouille des données – p. 15/?
Validation d’un classeur - 1
L’erreur d’un classeur Er est la probabilité que ce
classeur ne prédise pas correctement la classe d’une
donnée.
Fouille des données – p. 16/?
Validation d’un classeur - 1
L’erreur d’un classeur Er est la probabilité que ce
classeur ne prédise pas correctement la classe d’une
donnée.
Le taux de succès est 1 − Er.
Fouille des données – p. 16/?
Validation d’un classeur - 1
L’erreur d’un classeur Er est la probabilité que ce
classeur ne prédise pas correctement la classe d’une
donnée.
Le taux de succès est 1 − Er.
L’erreur apparente Erapp est mesurée sur les exemples
utilisés pour la construction du classeur.
Fouille des données – p. 16/?
Validation d’un classeur - 1
L’erreur d’un classeur Er est la probabilité que ce
classeur ne prédise pas correctement la classe d’une
donnée.
Le taux de succès est 1 − Er.
L’erreur apparente Erapp est mesurée sur les exemples
utilisés pour la construction du classeur.
Estimer la qualité d’un classeur :
L’ensemble d’apprentissage Xapp ;
L’ensemble de test Xtest qui permet d’estimer l’erreur
de classification ; on connaît la classe de chaque
exemple dans cet l’ensemble.
Fouille des données – p. 16/?
Validation d’un classeur - 2
Mesure de qualité d’un classeur : cas de classification binaire
:
Fouille des données – p. 17/?
Validation d’un classeur - 2
Mesure de qualité d’un classeur : cas de classification binaire
:
VP/VN : Le nombre de vrais positifs/négatifs : les
exemples de classe positive/négative et dont la
classe est prédite comme positive/négative.
Fouille des données – p. 17/?
Validation d’un classeur - 2
Mesure de qualité d’un classeur : cas de classification binaire
:
VP/VN : Le nombre de vrais positifs/négatifs : les
exemples de classe positive/négative et dont la
classe est prédite comme positive/négative.
FP/FN : Les exemples de classe négative/positive et dont
la classe est prédite comme positive/négative.
Fouille des données – p. 17/?
Validation d’un classeur - 2
Mesure de qualité d’un classeur : cas de classification binaire
:
VP/VN : Le nombre de vrais positifs/négatifs : les
exemples de classe positive/négative et dont la
classe est prédite comme positive/négative.
FP/FN : Les exemples de classe négative/positive et dont
la classe est prédite comme positive/négative.
Construction de la matrice de confusion ..
+
+ VP FN
- FP VN
Fouille des données – p. 17/?
Validation d’un classeur - 3
Mesure de qualité d’un classeur : cas de classification binaire
:
Fouille des données – p. 18/?
Validation d’un classeur - 3
Mesure de qualité d’un classeur : cas de classification binaire
:
On définit dans la suite quatre mesures :
P
La précision pour les positifs et les négatifs : V PV+F
P,
VN
V N +F N ; le rappel sur les positifs et les négatifs
VN
P
,
:
: V PV+F
N
V N +F P .
La précision mesure la proportion des exemples
vraiment positifs parmi ceux qui étaient classés
positifs.
Le rappel mesure la proportion des exemples positifs
trouvés parmi tous les exemples positifs.
Fouille des données – p. 18/?
Validation d’un classeur - 3
Mesure de qualité d’un classeur : cas de classification binaire
:
On définit dans la suite quatre mesures :
P
La précision pour les positifs et les négatifs : V PV+F
P,
VN
V N +F N ; le rappel sur les positifs et les négatifs
VN
P
,
:
: V PV+F
N
V N +F P .
La précision mesure la proportion des exemples
vraiment positifs parmi ceux qui étaient classés
positifs.
Le rappel mesure la proportion des exemples positifs
trouvés parmi tous les exemples positifs.
Fouille des données – p. 18/?
Validation d’un classeur - 3
Mesure de qualité d’un classeur : cas de classification binaire
:
On définit dans la suite quatre mesures :
P
La précision pour les positifs et les négatifs : V PV+F
P,
VN
V N +F N ; le rappel sur les positifs et les négatifs
VN
P
,
:
: V PV+F
N
V N +F P .
La précision mesure la proportion des exemples
vraiment positifs parmi ceux qui étaient classés
positifs.
Le rappel mesure la proportion des exemples positifs
trouvés parmi tous les exemples positifs.
Fouille des données – p. 18/?
Validation d’un classeur - 4
Technique : validation croisée :
Découper l’ensemble d’exemples en n sous
ensembles disjoints.
Chaque classe doit apparaître avec les même
fréquence dans les n ensembles.
Soit A,B,C une division en trois sous ensemble,
Le classifieur construit à partir de A ∪ B est appelé
ADA∪B ,
L’erreur de généralisation calculée sur C est appelé
Erc .
Le taux d’erreur est alors estimée par
Er =
ErA +ErB +Erc
3
Fouille des données – p. 19/?
Validation d’un classeur - 4
Technique : validation croisée :
Découper l’ensemble d’exemples en n sous
ensembles disjoints.
Chaque classe doit apparaître avec les même
fréquence dans les n ensembles.
Soit A,B,C une division en trois sous ensemble,
Le classifieur construit à partir de A ∪ B est appelé
ADA∪B ,
L’erreur de généralisation calculée sur C est appelé
Erc .
Le taux d’erreur est alors estimée par
Er =
ErA +ErB +Erc
3
Fouille des données – p. 19/?
Validation d’un classeur - 5
Méthode Bootstrap :
Un ensemble E : nous construisons l’ensemble
d’apprentissage Xapp .
Les exemples qui restent constituent l’ensemble Xtest .
on effectue N tirages aléatoires a partir de E avec
remise.
La probabilité qu’un exemple x ne soit jamais tiré est
égal à (1 − N1 )N , N − > +∞, e−1 = 0.368
|Xapp | = 63.2, |Xgn | = 36.8
E = 0.368 ∗ Eapp + 0.632 ∗ Etest
Fouille des données – p. 20/?