Data Mining, fouille de données: Concepts et techniques

Transcription

Data Mining, fouille de données: Concepts et techniques
Data
Data Mining,
Mining, fouille
fouille de
de données:
données:
Concepts
Concepts et
et techniques
techniques
Marius Fieschi
Faculté de Médecine de Marseille
Mars 2005
M. Fieschi
Data mining
Master EISIS
Février 2006
Data
Data Mining,
Mining, fouille
fouille de
de données:
données:
Concepts
Concepts et
et techniques
techniques
Ce cours est très proche du cours diffusé sur le net par
Jiawei Han et Micheline Kamber
Intelligent Database Systems Research Lab School of Computing Science
Simon Fraser University, Canada
http://www.cs.sfu.ca
Qu’ils en soient remerciés
Mars 2005
M. Fieschi
Data mining
Master EISIS
Février 2006
Introduction
Introduction
•
Motivation: Pourquoi le data mining (fouille de données)?
•
Qu’est-ce que le data mining?
•
Fouille de données: Sur quel type de données?
•
Fonctionnalités de la fouille de données
•
Classification des systèmes de data mining
Mars 2005
M. Fieschi
Data mining
Master EISIS
Février 2006
Pourquoi
Pourquoi la
la fouille
fouille de
de données?
données?
• L’explosion des données
Les outils de collecte automatique des données et les bases de données
conduisent à d’énormes masses de données stockées dans des entrepôts
• Submergés par les données, manque de connaissance!
• Solution: Entrepôts de données et fouille de données
9 Entrepôts de données et analyse on-line
9 Extraction de la connaissance intéressante (règles, régularités, patterns,
contraintes) à partir de grandes bases de données
Mars 2005
M. Fieschi
Data mining
Master EISIS
Février 2006
Evolution
Evolution de
de la
la technologie
technologie des
des bases
bases de
de
données
données
• 1970…: Bases de données relationnelles (RDBMS)
• 1980…: RDBMS, modèles de données avancés (extension du
relationnel, OO, ...) et DBMS orientés application (spatial,
scientifique, …)
• 1990 - 2000: Fouilles de données et entrepôts de données, BDD
multimédia, bases de données Web
Mars 2005
M. Fieschi
Data mining
Master EISIS
Février 2006
Qu’est-ce
Qu’est-ce que
que la
la fouille
fouille de
de données?
données?
Fouille de données (découverte de connaissance dans de grandes
bases de données):
9 Extraction d’information intéressante (non triviale, implicite, non
connue précédemment et potentiellement utile) ou de patterns
9 Découverte de connaissance (mining) dans des Bdd, extraction de
connaissance, analyse de données/pattern.
9 Propose des résumés d’information (rapports multidimensionnels,
résumés statistiques)
Mars 2005
M. Fieschi
Data mining
Master EISIS
Février 2006
Data
Data Mining:
Mining: Un
Un processus
processus de
de découverte
découverte de
de connaissance
connaissance
Evaluation
du modèle
Connaissance
Data
Mining
Données
pertinentes
Data
Warehouse
Sélection
Data
Cleaning
Intégration de
données
Bases de
données
Mars 2005
M. Fieschi
Data mining
Master EISIS
Février 2006
Etapes
Etapes d’un
d’un processus
processus de
de découverte
découverte de
de connaissance
connaissance
• Connaître le domaine d’application
Connaissance pertinente déjà établie et buts de l’application
•
•
•
•
Sélection des données cibles
Data cleaning, pré traitement
Réduction de données et transformation:
Choix des fonctions du data mining
Synthèse, résumé, classification, régression, association, clustering.
• Choix des algorithmes de fouille
• Data mining:
Recherche des modèles intéressants
• Evaluation des pattern et présentation de la connaissance
Visualisation, transformation, etc.
• Utilisation de la connaissance
Mars 2005
M. Fieschi
Data mining
Master EISIS
Février 2006
Architecture
Architecture d’un
d’un système
système type
type de
de data
data mining
mining
Interface utilisateur
Evaluation du Pattern
Moteur de Data mining
Data cleaning,
intégration
Serveur de base de données ou
d’entrepôt de données
Filtrage
Bases de données
Mars 2005
M. Fieschi
Data mining
Base de
connaissance
Data Warehouse
Master EISIS
Février 2006
Data
Data mining:
mining: Sur
Sur quel
quel type
type de
de données?
données?
• Bases de données relationnelles
• Data warehouses / entrepôts de données
• Réservoir de données
9
9
9
9
9
Mars 2005
Orientées Objet
Bases de données spatiales
Données chronologiques et données temporelles
Bases textuelles et multimédia
WWW
M. Fieschi
Data mining
Master EISIS
Février 2006
Intérêt
Intérêt des
des modèles
modèles (patterns)
(patterns) découverts
découverts
• Un système de data mining génère des milliers de patterns, tous
ne sont pas intéressants.
• Intérêt
Un pattern est intéressant si il est
9
facilement compris par les humains,
9
valide sur données nouvelles ou testées avec un certain degré de certitude,
9
potentiellement utile,
9
nouveau, ou validant certaines hypothèses que l’on cherche à confirmer
• Objectif vs. subjectif
9 Objectif: basé sur des statistiques et des structures de patterns
9 Subjectif: basé sur des croyances des utilisateurs
Mars 2005
M. Fieschi
Data mining
Master EISIS
Février 2006
La
La fouille
fouille de
de données
données
Technologie des
bases de données
Apprentissage
Machine
Learning
Statistiques
Fouille de données
Science de
l’information
Mars 2005
M. Fieschi
Visualisation
Autres
disciplines
Data mining
Master EISIS
Février 2006
La
La fouille
fouille de
de données
données
• Bases de données à fouiller
Relationnelles, transactionnelles, orientées objet, spatiales, séries
chronologiques, textuelles, multi-media, WWW, etc.
• Connaissance à fouiller
Caractérisation, discrimination, association, classification, déviation et
analyse des outliers
• Techniques utilisées
Bases de données, data warehouse (OLAP), machine learning,
statistiques, visualisation, réseaux de neurones.
Mars 2005
M. Fieschi
Data mining
Master EISIS
Février 2006
Entrepôts
Entrepôts de
de données
données (data
(data warehousing)
warehousing)
et
et technologies
technologies pour
pour la
la fouille
fouille de
de données
données
(data
(data mining)
mining)
Mars 2005
M. Fieschi
Data mining
Master EISIS
Février 2006
Data
Data Warehouse:
Warehouse: les
les applications
applications
Trois types d’applications pour les data warehouse
•
Traitement de l’information
Pour requêtes, analyse statistique de base, rapports, tableaux croisés,
diagrammes, graphiques
•
Traitement analytique ++
Analyse multidimensionnelle des données
•
Data mining
Découverte de connaissances et de modèles
Pour réaliser des classifications, des analyses de prédiction.
Mars 2005
M. Fieschi
Data mining
Master EISIS
Février 2006
Data
Data Warehousing
Warehousing et
et technologies
technologies pour
pour la
la fouille
fouille
de
de données
données
•
Qu’est-ce qu’un data warehouse?
•
Un modèle de données multi dimensionnelles
•
Architecture du data warehouse
•
Implémentation d’un data warehouse
•
Du data warehousing à la fouille de données
Mars 2005
M. Fieschi
Data mining
Master EISIS
Février 2006
Qu’est-ce
Qu’est-ce que
que le
le Data
Data Warehouse?
Warehouse?
•
Une base de données d’aide à la décision qui est entretenue de
manière séparée de la base de données opérationnelle de
l’organisation
•
Aide au traitement de l’information en fournissant une
plateforme de données historiques consolidées pour l’analyse.
•
Data warehousing: Le processus de construction et d’utilisation
du data warehouse
Mars 2005
M. Fieschi
Data mining
Master EISIS
Février 2006
L’approche
L’approche “Subject-Oriented”
“Subject-Oriented” du
du data
data
warehouse
warehouse
•
Organisé autour des sujets majeurs, tels que personne, client,…
•
Sujet= Faits + dimensions
•
Centré sur la modélisation et l’analyse de données pour les
décideurs, non pour des opérations quotidiennes
•
Fournit une vue simple, concise sur des sujets particuliers en
excluant des données inutiles dans le processus d’aide à la
décision
• Construit par intégration de sources de données multiples et
hétérogènes
Mars 2005
M. Fieschi
Data mining
Master EISIS
Février 2006
Le
Le schéma
schéma en
en étoile
étoile
•
•
Une table de faits encadrées par N tables de dimensions
Exemple
Produits
Périodes
Table de faits “ventes”
IDper
année
trimestre
mois
jour
période
produit
Magasins
magasin
IDmag
nom
ville
département
pays
unités_vendues
montant_ventes
taxes_ventes
Mars 2005
M. Fieschi
Data mining
IDprod
description
couleur
taille
fournisseur
Master EISIS
Février 2006
Data
Data Warehouse
Warehouse
• La consolidation des données
Application de techniques de « data cleaning » et de «data intégration »
• La cohérence des données doit être assurée
Nommer les règles de codage, les mesures, les attributs,… pour les
différentes sources de données
• La conversion des données intégrées au data
warehouse
• L’importance du « temps » pour le data warehouse
Toutes les structures « clés » dans le data warehouse contiennent un
élément de temps, explicitement ou implicitement
Mars 2005
M. Fieschi
Data mining
Master EISIS
Février 2006
Data
Data Warehouse
Warehouse
•
La mise à jour de données opérationnelles n’est pas réalisée dans
le data warehouse
Ne demande pas de transactionnel et mécanismes de contrôle d’accès
concurrentiels
Demande uniquement deux opérations en accès aux données:
Chargement initial de données et accès aux données.
•
Intégration traditionnelle de bases de données (bdd) hétérogènes:
Construction de wrappers/médiateurs au dessus des bdd hétérogènes
Mars 2005
M. Fieschi
Data mining
Master EISIS
Février 2006
Deux types de traitements: OLAP / OLTP
• OLTP (on-line transaction processing)
Tâche majeure des Bdd relationnelles traditionnelles
Opérations quotidiennes enregistrées.
• OLAP (on-line analytical processing)
Tâche majeure des systèmes de data warehouse
Analyse de données et décision
Le data warehouse: OLAP
Mars 2005
M. Fieschi
Data mining
Master EISIS
Février 2006
OLTP
OLTP vs.
vs. OLAP
OLAP
OLTP
OLAP
Utilisateurs
employé, professionnel
Analyste connaissance
Fonction
Opérations au jour le jour
Aide à la décision
Conception de la Bdd
Orientée application
courante,
détaillée, simple relationnel
Orientée sujet
historique, résumée,
multidimensionnelle,
intégrée, consolidée
ad-hoc
Donnée
Usage
Accès
Unité de travail
répétitif
read/write
index/hash sur clé primaire
court, transaction simple
multiples
Requête complexe
Enregistrements accès. dizaines
millions
Nb utilisateurs
milliers
centaines
Taille de la Bdd
100MB-GB
100GB-TB
Métrique
Mars 2005
transaction
M. Fieschi
requête
Data mining
Master EISIS
Février 2006
Pourquoi séparer le Data Warehouse?
Haute performance pour les deux systèmes
• DBMS: performance pour OLTP
méthodes d’accès, index, accès concurrentiels, restauration
• Warehouse: performance pour OLAP
requêtes complexes, vue multidimensionnelle, consolidation
Différentes fonctions et différentes données
• Données manquantes:
L’aide à la décision (AAD) demande des données historiques. Les Bdd
opérationnelles ne les gèrent pas toujours
• Consolidation de données:
L’AAD demande la consolidation (agrégation, résumé) de données
issues de sources hétérogènes
• Qualité des données:
Habituellement différentes sources utilisent des représentations de
données non cohérentes, des codes et des formats à «réconcilier»
Mars 2005
M. Fieschi
Data mining
Master EISIS
Février 2006
Les
Les cubes
cubes de
de données
données
•
Un data warehouse est basé sur un modèle de données
multidimensionnel qui « voit » les données sous forme de
«data cube »
•
Un « data cube », comme par exemple les ventes, permet de
modéliser et de voir les données relatives aux ventes en de
multiples dimensions
Mars 2005
M. Fieschi
Data mining
Master EISIS
Février 2006
Une
Une hiérarchie
hiérarchie de
de concepts:
concepts: Dimension
Dimension (lieu)
(lieu)
Tous
Tous
Timone
hôpital
service
UF
Mars 2005
neurochirurgie ... cardiologie
consultation
...
M. Fieschi
Nord
...
cardiologie ... obstétrique
hospitalisation ...
Data mining
Master EISIS
HdJ
Février 2006
Données
Données multidimensionnelles
multidimensionnelles
Volume des factures, une fonction de l’activité, mois, et de l’hôpital
Hô
pi
ta
l
Dimensions: Activité, Lieu, Temps
Synthèses hiérarchiques
MCO
Activité
Chir.
Hôpital
Année
Service Trimestre
Actes
UF
Mois
Semaine
Jour
Mois
Mars 2005
M. Fieschi
Data mining
Master EISIS
Février 2006
2trim 3trim
4trim
Total annuel activité
de chir. à Timone
somme
Ac
t
Chir.
Méd.
Obst.
somme
1trim
Date
Timone
Conception
Nord
Etablissement
iv
ité
Un
Un exemple
exemple de
de cube
cube de
de données
données
somme
Mars 2005
M. Fieschi
Data mining
Master EISIS
Février 2006

Documents pareils