Data Mining, fouille de données: Concepts et techniques
Transcription
Data Mining, fouille de données: Concepts et techniques
Data Data Mining, Mining, fouille fouille de de données: données: Concepts Concepts et et techniques techniques Marius Fieschi Faculté de Médecine de Marseille Mars 2005 M. Fieschi Data mining Master EISIS Février 2006 Data Data Mining, Mining, fouille fouille de de données: données: Concepts Concepts et et techniques techniques Ce cours est très proche du cours diffusé sur le net par Jiawei Han et Micheline Kamber Intelligent Database Systems Research Lab School of Computing Science Simon Fraser University, Canada http://www.cs.sfu.ca Qu’ils en soient remerciés Mars 2005 M. Fieschi Data mining Master EISIS Février 2006 Introduction Introduction • Motivation: Pourquoi le data mining (fouille de données)? • Qu’est-ce que le data mining? • Fouille de données: Sur quel type de données? • Fonctionnalités de la fouille de données • Classification des systèmes de data mining Mars 2005 M. Fieschi Data mining Master EISIS Février 2006 Pourquoi Pourquoi la la fouille fouille de de données? données? • L’explosion des données Les outils de collecte automatique des données et les bases de données conduisent à d’énormes masses de données stockées dans des entrepôts • Submergés par les données, manque de connaissance! • Solution: Entrepôts de données et fouille de données 9 Entrepôts de données et analyse on-line 9 Extraction de la connaissance intéressante (règles, régularités, patterns, contraintes) à partir de grandes bases de données Mars 2005 M. Fieschi Data mining Master EISIS Février 2006 Evolution Evolution de de la la technologie technologie des des bases bases de de données données • 1970…: Bases de données relationnelles (RDBMS) • 1980…: RDBMS, modèles de données avancés (extension du relationnel, OO, ...) et DBMS orientés application (spatial, scientifique, …) • 1990 - 2000: Fouilles de données et entrepôts de données, BDD multimédia, bases de données Web Mars 2005 M. Fieschi Data mining Master EISIS Février 2006 Qu’est-ce Qu’est-ce que que la la fouille fouille de de données? données? Fouille de données (découverte de connaissance dans de grandes bases de données): 9 Extraction d’information intéressante (non triviale, implicite, non connue précédemment et potentiellement utile) ou de patterns 9 Découverte de connaissance (mining) dans des Bdd, extraction de connaissance, analyse de données/pattern. 9 Propose des résumés d’information (rapports multidimensionnels, résumés statistiques) Mars 2005 M. Fieschi Data mining Master EISIS Février 2006 Data Data Mining: Mining: Un Un processus processus de de découverte découverte de de connaissance connaissance Evaluation du modèle Connaissance Data Mining Données pertinentes Data Warehouse Sélection Data Cleaning Intégration de données Bases de données Mars 2005 M. Fieschi Data mining Master EISIS Février 2006 Etapes Etapes d’un d’un processus processus de de découverte découverte de de connaissance connaissance • Connaître le domaine d’application Connaissance pertinente déjà établie et buts de l’application • • • • Sélection des données cibles Data cleaning, pré traitement Réduction de données et transformation: Choix des fonctions du data mining Synthèse, résumé, classification, régression, association, clustering. • Choix des algorithmes de fouille • Data mining: Recherche des modèles intéressants • Evaluation des pattern et présentation de la connaissance Visualisation, transformation, etc. • Utilisation de la connaissance Mars 2005 M. Fieschi Data mining Master EISIS Février 2006 Architecture Architecture d’un d’un système système type type de de data data mining mining Interface utilisateur Evaluation du Pattern Moteur de Data mining Data cleaning, intégration Serveur de base de données ou d’entrepôt de données Filtrage Bases de données Mars 2005 M. Fieschi Data mining Base de connaissance Data Warehouse Master EISIS Février 2006 Data Data mining: mining: Sur Sur quel quel type type de de données? données? • Bases de données relationnelles • Data warehouses / entrepôts de données • Réservoir de données 9 9 9 9 9 Mars 2005 Orientées Objet Bases de données spatiales Données chronologiques et données temporelles Bases textuelles et multimédia WWW M. Fieschi Data mining Master EISIS Février 2006 Intérêt Intérêt des des modèles modèles (patterns) (patterns) découverts découverts • Un système de data mining génère des milliers de patterns, tous ne sont pas intéressants. • Intérêt Un pattern est intéressant si il est 9 facilement compris par les humains, 9 valide sur données nouvelles ou testées avec un certain degré de certitude, 9 potentiellement utile, 9 nouveau, ou validant certaines hypothèses que l’on cherche à confirmer • Objectif vs. subjectif 9 Objectif: basé sur des statistiques et des structures de patterns 9 Subjectif: basé sur des croyances des utilisateurs Mars 2005 M. Fieschi Data mining Master EISIS Février 2006 La La fouille fouille de de données données Technologie des bases de données Apprentissage Machine Learning Statistiques Fouille de données Science de l’information Mars 2005 M. Fieschi Visualisation Autres disciplines Data mining Master EISIS Février 2006 La La fouille fouille de de données données • Bases de données à fouiller Relationnelles, transactionnelles, orientées objet, spatiales, séries chronologiques, textuelles, multi-media, WWW, etc. • Connaissance à fouiller Caractérisation, discrimination, association, classification, déviation et analyse des outliers • Techniques utilisées Bases de données, data warehouse (OLAP), machine learning, statistiques, visualisation, réseaux de neurones. Mars 2005 M. Fieschi Data mining Master EISIS Février 2006 Entrepôts Entrepôts de de données données (data (data warehousing) warehousing) et et technologies technologies pour pour la la fouille fouille de de données données (data (data mining) mining) Mars 2005 M. Fieschi Data mining Master EISIS Février 2006 Data Data Warehouse: Warehouse: les les applications applications Trois types d’applications pour les data warehouse • Traitement de l’information Pour requêtes, analyse statistique de base, rapports, tableaux croisés, diagrammes, graphiques • Traitement analytique ++ Analyse multidimensionnelle des données • Data mining Découverte de connaissances et de modèles Pour réaliser des classifications, des analyses de prédiction. Mars 2005 M. Fieschi Data mining Master EISIS Février 2006 Data Data Warehousing Warehousing et et technologies technologies pour pour la la fouille fouille de de données données • Qu’est-ce qu’un data warehouse? • Un modèle de données multi dimensionnelles • Architecture du data warehouse • Implémentation d’un data warehouse • Du data warehousing à la fouille de données Mars 2005 M. Fieschi Data mining Master EISIS Février 2006 Qu’est-ce Qu’est-ce que que le le Data Data Warehouse? Warehouse? • Une base de données d’aide à la décision qui est entretenue de manière séparée de la base de données opérationnelle de l’organisation • Aide au traitement de l’information en fournissant une plateforme de données historiques consolidées pour l’analyse. • Data warehousing: Le processus de construction et d’utilisation du data warehouse Mars 2005 M. Fieschi Data mining Master EISIS Février 2006 L’approche L’approche “Subject-Oriented” “Subject-Oriented” du du data data warehouse warehouse • Organisé autour des sujets majeurs, tels que personne, client,… • Sujet= Faits + dimensions • Centré sur la modélisation et l’analyse de données pour les décideurs, non pour des opérations quotidiennes • Fournit une vue simple, concise sur des sujets particuliers en excluant des données inutiles dans le processus d’aide à la décision • Construit par intégration de sources de données multiples et hétérogènes Mars 2005 M. Fieschi Data mining Master EISIS Février 2006 Le Le schéma schéma en en étoile étoile • • Une table de faits encadrées par N tables de dimensions Exemple Produits Périodes Table de faits “ventes” IDper année trimestre mois jour période produit Magasins magasin IDmag nom ville département pays unités_vendues montant_ventes taxes_ventes Mars 2005 M. Fieschi Data mining IDprod description couleur taille fournisseur Master EISIS Février 2006 Data Data Warehouse Warehouse • La consolidation des données Application de techniques de « data cleaning » et de «data intégration » • La cohérence des données doit être assurée Nommer les règles de codage, les mesures, les attributs,… pour les différentes sources de données • La conversion des données intégrées au data warehouse • L’importance du « temps » pour le data warehouse Toutes les structures « clés » dans le data warehouse contiennent un élément de temps, explicitement ou implicitement Mars 2005 M. Fieschi Data mining Master EISIS Février 2006 Data Data Warehouse Warehouse • La mise à jour de données opérationnelles n’est pas réalisée dans le data warehouse Ne demande pas de transactionnel et mécanismes de contrôle d’accès concurrentiels Demande uniquement deux opérations en accès aux données: Chargement initial de données et accès aux données. • Intégration traditionnelle de bases de données (bdd) hétérogènes: Construction de wrappers/médiateurs au dessus des bdd hétérogènes Mars 2005 M. Fieschi Data mining Master EISIS Février 2006 Deux types de traitements: OLAP / OLTP • OLTP (on-line transaction processing) Tâche majeure des Bdd relationnelles traditionnelles Opérations quotidiennes enregistrées. • OLAP (on-line analytical processing) Tâche majeure des systèmes de data warehouse Analyse de données et décision Le data warehouse: OLAP Mars 2005 M. Fieschi Data mining Master EISIS Février 2006 OLTP OLTP vs. vs. OLAP OLAP OLTP OLAP Utilisateurs employé, professionnel Analyste connaissance Fonction Opérations au jour le jour Aide à la décision Conception de la Bdd Orientée application courante, détaillée, simple relationnel Orientée sujet historique, résumée, multidimensionnelle, intégrée, consolidée ad-hoc Donnée Usage Accès Unité de travail répétitif read/write index/hash sur clé primaire court, transaction simple multiples Requête complexe Enregistrements accès. dizaines millions Nb utilisateurs milliers centaines Taille de la Bdd 100MB-GB 100GB-TB Métrique Mars 2005 transaction M. Fieschi requête Data mining Master EISIS Février 2006 Pourquoi séparer le Data Warehouse? Haute performance pour les deux systèmes • DBMS: performance pour OLTP méthodes d’accès, index, accès concurrentiels, restauration • Warehouse: performance pour OLAP requêtes complexes, vue multidimensionnelle, consolidation Différentes fonctions et différentes données • Données manquantes: L’aide à la décision (AAD) demande des données historiques. Les Bdd opérationnelles ne les gèrent pas toujours • Consolidation de données: L’AAD demande la consolidation (agrégation, résumé) de données issues de sources hétérogènes • Qualité des données: Habituellement différentes sources utilisent des représentations de données non cohérentes, des codes et des formats à «réconcilier» Mars 2005 M. Fieschi Data mining Master EISIS Février 2006 Les Les cubes cubes de de données données • Un data warehouse est basé sur un modèle de données multidimensionnel qui « voit » les données sous forme de «data cube » • Un « data cube », comme par exemple les ventes, permet de modéliser et de voir les données relatives aux ventes en de multiples dimensions Mars 2005 M. Fieschi Data mining Master EISIS Février 2006 Une Une hiérarchie hiérarchie de de concepts: concepts: Dimension Dimension (lieu) (lieu) Tous Tous Timone hôpital service UF Mars 2005 neurochirurgie ... cardiologie consultation ... M. Fieschi Nord ... cardiologie ... obstétrique hospitalisation ... Data mining Master EISIS HdJ Février 2006 Données Données multidimensionnelles multidimensionnelles Volume des factures, une fonction de l’activité, mois, et de l’hôpital Hô pi ta l Dimensions: Activité, Lieu, Temps Synthèses hiérarchiques MCO Activité Chir. Hôpital Année Service Trimestre Actes UF Mois Semaine Jour Mois Mars 2005 M. Fieschi Data mining Master EISIS Février 2006 2trim 3trim 4trim Total annuel activité de chir. à Timone somme Ac t Chir. Méd. Obst. somme 1trim Date Timone Conception Nord Etablissement iv ité Un Un exemple exemple de de cube cube de de données données somme Mars 2005 M. Fieschi Data mining Master EISIS Février 2006