Fouille de données et Apprentissage automatique
Transcription
Fouille de données et Apprentissage automatique
Fouille de données et Apprentissage automatique 1. Nicolas Lachiche Enseignant au département informatique de l'IUT Robert Schuman [email protected] Membre de l'équipe Apprentissage et Fouille de Données du LSIIT 2. Recherche Apprentissage automatique, fouille de données Propositionnel/premier ordre Supervisé/non-supervisé 3. Fouille de données Existence d'un besoin Processus de découverte de motifs utiles, quasi automatiquement, à partir de grandes quantités de données 4. Apprentissage automatique On dit qu'un programme informatique apprend, à partir d'une expérience E, par rapport à une classe de tâches T et une mesure de performance P, si sa performance sur des tâches de T, mesurée par P, s'améliore avec l'expérience E. 5. Exemple introductif Jour Ciel Température Humidité Vent Jouer J1 Soleil Chaud Elevée Faible Non J2 Soleil Chaud Elevée Fort Non J3 Couvert Chaud Elevée Faible Oui J4 Pluie Doux Elevée Faible Oui J5 Pluie Froid Normale Faible Oui J6 Pluie Froid Normale Fort Non J7 Couvert Froid Normale Fort Oui J8 Soleil Doux Elevée Faible Non J9 Soleil Froid Normale Faible Oui 1 sur 5 J10 J11 J12 J13 J14 Pluie Doux Soleil Doux Couvert Doux Couvert Chaud Pluie Doux Normale Normale Elevée Normale Elevée Faible Oui Fort Oui Fort Oui Faible Oui Fort Non 6. Exemples d'applications réelles Aide à la décision (attribution de prêts bancaires, cartes de crédit, etc.) Analyse d'images (détection de nappes de pétrole, structures astronomiques, médical, etc.) Apprendre à reconnaître des mots parlés Apprendre à conduire un véhicule autonome Apprendre à jouer au backgammon à un niveau de champion Commerce et marketing (panier de la ménagère, ticket de caisse, carte de fidélité, mailing, etc.) 7. Différents types d'apprentissages 7.1. Apprentissage supervisé La majorité des exemples précédents Classe Exemples étiquetés par un professeur Classe numérique (régression) ou catégorielle (classification) 7.2. Apprentissage non-supervisé Pas de classe prédéfinie Découverte de règles Clustering 7.3. Autres dimensions Renforcement Interactif Au premier ordre 8. Apprentissage automatique vs. statistiques Pas la même origine, recherche dans un espace des hypothèses vs. évaluation d'une hypothèse 2 sur 5 Convergent dans l'analyse de données 9. Apprentissage de concepts Fonction booléenne, par exemple PlayTennis Représentation des hypothèses : une règle, Si conjonction d'attributs-valeurs alors appartient au concept Espace des hypothèses : 4 × 4 × 3 × 3 = 144 conjonctions Espace des instances : 3 × 3 × 2 × 2 = 36 instances 9.1. Principe de l'apprentissage inductif Toute hypothèse qui est une bonne approximation de la fonction cible sur l'ensemble d'apprentissage est aussi une bonne approximation de la fonction cible sur les instances non observées. 9.2. Parcours de l'espace des hypothèses Enumérer-éliminer Relation d'ordre Recherche ascendante/descendante, espace des versions 9.3. Problèmes Il reste plusieurs hypothèses cohérentes avec l'ensemble d'apprentissage. Pas assez d'exemples pour isoler la "bonne" hypothèse Critère supplémentaire pour choisir la "bonne" Il n'y a plus d'hypothèse cohérente avec l'ensemble d'apprentissage. Soit le langage n'est pas assez expressif Soit les exemples sont bruités 9.4. Le bruit en apprentissage Origines diverses (physiques, expérimentales, humaines, etc.) Mauvaise classe associée à la description 9.5. Pas d'apprentissage sans biais 236 = 6,9 × 1010 concepts possibles En fait, 236 - 14 = 4096 concepts cohérents avec les exemples Impossible de choisir sans biais supplémentaire Biais de langage Biais de recherche 3 sur 5 Biais pour éviter le sur-apprentissage 10. Méthodologie de la fouille de données 1. 2. 3. 4. 5. Identifier le problème à résoudre Préparer les données d'entrée Explorer des modèles multiples Utiliser le modèle sur le réel Suivre le modèle et l'améliorer 11. Identifier le problème à résoudre 11.1. Concept reformuler le problème en un des types connus 11.2. Entrées Attributs-valeurs seulement Relationnel : propositionalisation ? Relationnel : premier-ordre Séquence, temporel Spatial, géographique Connaissances du domaine 11.2.1. Attributs Numérique Nominal Continu Catégoriel Ordonné Intervalle Hiérarchique : suggère un changement de représentation ! 12. Préparer les données d'entrée 12.1. "Entrepôt de données" 1. 2. 3. 4. Trouver les sources Collecter les données Nettoyer les données Transformer les données 4 sur 5 5. Intégrer les données 12.2. Valeurs manquantes Significatives : une valeur comme les autres Inconnue : une valeur spécifique, traitement particulier Ne s'applique pas : suggère un changement de représentation Remplissage : danger ! 12.3. Autres points importants Outliers Répétition d'instances influence le modèle construit Exploration manuelle préalable des données 13. Explorer des modèles multiples 1. 2. 3. 4. choisir une technique échantillonner construire un modèle valider 14. Evaluer le modèle sur le réel 1. 2. 3. 4. observer la réalité recommander des actions bâtir des estimateurs corriger et affiner le modèle 15. Bibliographie Tom Mitchell, Machine Learning, McGraw-Hill, 1997 Ian Witten & Eibe Frank, Data mining - Practical Machine Learning Tools and Techniques (Second edition), 2005 Georges Gardarin, Internet/intranet et bases de données, Eyrolles, 1999 5 sur 5