Fouille de données et Apprentissage automatique

Transcription

Fouille de données et Apprentissage automatique
Fouille de données et Apprentissage
automatique
1. Nicolas Lachiche
Enseignant au département informatique de l'IUT Robert Schuman
[email protected]
Membre de l'équipe Apprentissage et Fouille de Données du LSIIT
2. Recherche
Apprentissage automatique, fouille de données
Propositionnel/premier ordre
Supervisé/non-supervisé
3. Fouille de données
Existence d'un besoin
Processus de découverte de motifs utiles, quasi automatiquement, à partir de
grandes quantités de données
4. Apprentissage automatique
On dit qu'un programme informatique apprend, à partir d'une expérience E, par
rapport à une classe de tâches T et une mesure de performance P, si sa
performance sur des tâches de T, mesurée par P, s'améliore avec l'expérience E.
5. Exemple introductif
Jour Ciel
Température Humidité Vent Jouer
J1 Soleil Chaud
Elevée Faible Non
J2 Soleil Chaud
Elevée Fort Non
J3 Couvert Chaud
Elevée Faible Oui
J4 Pluie Doux
Elevée Faible Oui
J5 Pluie Froid
Normale Faible Oui
J6 Pluie Froid
Normale Fort Non
J7 Couvert Froid
Normale Fort Oui
J8 Soleil Doux
Elevée Faible Non
J9 Soleil Froid
Normale Faible Oui
1 sur 5
J10
J11
J12
J13
J14
Pluie Doux
Soleil Doux
Couvert Doux
Couvert Chaud
Pluie Doux
Normale
Normale
Elevée
Normale
Elevée
Faible Oui
Fort Oui
Fort Oui
Faible Oui
Fort Non
6. Exemples d'applications réelles
Aide à la décision (attribution de prêts bancaires, cartes de crédit, etc.)
Analyse d'images (détection de nappes de pétrole, structures astronomiques,
médical, etc.)
Apprendre à reconnaître des mots parlés
Apprendre à conduire un véhicule autonome
Apprendre à jouer au backgammon à un niveau de champion
Commerce et marketing (panier de la ménagère, ticket de caisse, carte de
fidélité, mailing, etc.)
7. Différents types d'apprentissages
7.1. Apprentissage supervisé
La majorité des exemples précédents
Classe
Exemples étiquetés par un professeur
Classe numérique (régression) ou catégorielle (classification)
7.2. Apprentissage non-supervisé
Pas de classe prédéfinie
Découverte de règles
Clustering
7.3. Autres dimensions
Renforcement
Interactif
Au premier ordre
8. Apprentissage automatique vs. statistiques
Pas la même origine, recherche dans un espace des hypothèses vs. évaluation
d'une hypothèse
2 sur 5
Convergent dans l'analyse de données
9. Apprentissage de concepts
Fonction booléenne, par exemple PlayTennis
Représentation des hypothèses : une règle, Si conjonction d'attributs-valeurs
alors appartient au concept
Espace des hypothèses : 4 × 4 × 3 × 3 = 144 conjonctions
Espace des instances : 3
× 3 × 2 × 2 = 36 instances
9.1. Principe de l'apprentissage inductif
Toute hypothèse qui est une bonne approximation de la fonction cible sur
l'ensemble d'apprentissage est aussi une bonne approximation de la fonction
cible sur les instances non observées.
9.2. Parcours de l'espace des hypothèses
Enumérer-éliminer
Relation d'ordre
Recherche ascendante/descendante, espace des versions
9.3. Problèmes
Il reste plusieurs hypothèses cohérentes avec l'ensemble d'apprentissage.
Pas assez d'exemples pour isoler la "bonne" hypothèse
Critère supplémentaire pour choisir la "bonne"
Il n'y a plus d'hypothèse cohérente avec l'ensemble d'apprentissage.
Soit le langage n'est pas assez expressif
Soit les exemples sont bruités
9.4. Le bruit en apprentissage
Origines diverses (physiques, expérimentales, humaines, etc.)
Mauvaise classe associée à la description
9.5. Pas d'apprentissage sans biais
236 = 6,9
× 1010 concepts possibles
En fait, 236 - 14 = 4096 concepts cohérents avec les exemples
Impossible de choisir sans biais supplémentaire
Biais de langage
Biais de recherche
3 sur 5
Biais pour éviter le sur-apprentissage
10. Méthodologie de la fouille de données
1.
2.
3.
4.
5.
Identifier le problème à résoudre
Préparer les données d'entrée
Explorer des modèles multiples
Utiliser le modèle sur le réel
Suivre le modèle et l'améliorer
11. Identifier le problème à résoudre
11.1. Concept
reformuler le problème en un des types connus
11.2. Entrées
Attributs-valeurs seulement
Relationnel : propositionalisation ?
Relationnel : premier-ordre
Séquence, temporel
Spatial, géographique
Connaissances du domaine
11.2.1. Attributs
Numérique
Nominal
Continu
Catégoriel
Ordonné
Intervalle
Hiérarchique : suggère un changement de représentation !
12. Préparer les données d'entrée
12.1. "Entrepôt de données"
1.
2.
3.
4.
Trouver les sources
Collecter les données
Nettoyer les données
Transformer les données
4 sur 5
5. Intégrer les données
12.2. Valeurs manquantes
Significatives : une valeur comme les autres
Inconnue : une valeur spécifique, traitement particulier
Ne s'applique pas : suggère un changement de représentation
Remplissage : danger !
12.3. Autres points importants
Outliers
Répétition d'instances influence le modèle construit
Exploration manuelle préalable des données
13. Explorer des modèles multiples
1.
2.
3.
4.
choisir une technique
échantillonner
construire un modèle
valider
14. Evaluer le modèle sur le réel
1.
2.
3.
4.
observer la réalité
recommander des actions
bâtir des estimateurs
corriger et affiner le modèle
15. Bibliographie
Tom Mitchell, Machine Learning, McGraw-Hill, 1997
Ian Witten & Eibe Frank, Data mining - Practical Machine Learning Tools and
Techniques (Second edition), 2005
Georges Gardarin, Internet/intranet et bases de données, Eyrolles, 1999
5 sur 5