Introduction à la modélisation

Transcription

Introduction à la modélisation
Option_Data
Option
Data Mining
Introduction à la modélisation
Dan Noël
1
Objectifs de la session
• Présenter les algorithmes principaux de Data
Mining ainsi que les outils Clementine en rapport
2
Page 1
Principaux thèmes de Data Mining (1)
•
Thème 1: Classification
– Examiner les caractéristiques d’un « objet » et lui
attribuer une classe
•
Exemples:
– Accorder oui ou non un prêt hypothécaire
– Etablir un diagnostic en fonction d’éléments
d éléments observés
– …
3
Principaux thèmes de Data Mining (2)
•
Thème 2: Prédiction
– prédire la valeur d'une variable en fonction d'autres
éléments connus
•
Exemple:
– Prédire le risque d’un client sur la base de son revenu,
ancienneté ou autres éléments financiers/personnels
– …
4
Page 2
Principaux thèmes de Data Mining (3)
•
Thème 3: Segmentation
– former des groupes homogènes à l'intérieur d'une
population
•
Exemple:
– Déterminer des groupes de clients homogènes pour
ensuite réaliser une approche commerciale segmentée
– …
5
Principaux thèmes de Data Mining (4)
•
Thème 4: Association
– déterminer automatiquement les éventuelles
corrélations/relations entre différents éléments
•
Exemples:
– Analyse du panier de la ménagère
– Analyse de parcours des internautes sur un site de vente
– …
6
Page 3
Les différents types d’apprentissages
• Apprentissage supervisé
– Processus dans lequel l'apprenant reçoit des exemples
d'apprentissage comprenant à la fois des données
d'entrée et de sortie
•
Méthodes: classification, prédiction
• Apprentissage non
non-supervisé
supervisé
– processus dans lequel l'apprenant reçoit des exemples
d'apprentissage ne comprenant que des données d'entrée
•
Méthodes: association, segmentation
7
Classification selon la nature des modèles
• Modèles prédictifs
– Utilisent les données avec des résultats connus pour
p
développer des modèles permettant de prédire les valeurs
d'autres données
• Exemple: modèle permettant de prédire les clients qui ne
rembourseront pas leur crédit
• Méthodes: classification, prédiction
• Modèles descriptifs
– Proposent des descriptions des données pour aide à la
décision. Les modèles descriptifs aident souvent à la
construction de modèles prédictifs
• Méthodes: segmentation, Association
8
Page 4
Panorama des diverses méthodes de DM
Prédiction:
• Régressions
• Arbres de décision
• Réseaux de neurones
•…
Segmentation:
• K means
• K plus proches voisins
• Réseaux de neurones
•…
Classification:
Association:
• Arbres de décision
• Règles d'association
• K plus proches voisins •…
• Réseaux de neurones
•…
9
Introduction aux algorithmes principaux
• Les réseaux de neurones
• Les arbres de décision
• La régression linéaire
• La régression logistique
• Le clustering
• Réseau de Kohonen
• K-Means
• Les règles d’associations
• …
10
Page 5
Les réseaux de neurones
• Idée de base:
– Construire des "machines"
machines à résoudre des problèmes sur
le modèle de fonctionnement du cerveau humain
• Concept:
– Plusieurs neurones arrangés en couches pour créer un
"réseau"
• Neurone:
– Elément indépendant qui se charge d'une
d une tâche
spécifique dans le cadre de la résolution de problème
– Les relations entre les neurones donnent la possibilité au
réseau d'apprendre les patterns et les interrelations dans
les données (pondération - poids)
11
Réseau de neurones: représentation
COUCHE ENTREE
COUCHE CACHEE
COUCHE SORTIE
12
Page 6
Le réseau de neurones dans Clementine
• la couche d'entrée:
T t les
Toutes
l variables
i bl choisies
h i i pour prédire
édi lle résultat
é lt t
de sortie
• La couche sortie:
La variable à prédire qui peut être soit numérique ou
symbolique
• La couche cachée:
Ensemble des neurones résultant du mix des
variables primaires de la couche d'entrée
13
Outils réseaux de neurones dans Clementine
• Multi-layer perceptron (MLP)
– Dans un MLP les couches cachées reçoivent en "input"
une combinaison "pondérée" des output des neurones de
la couche précédente
– Les neurones de la dernière couche sont arrangés pour
donner en output le résultat final de la prédiction
• Radial Basis Function Network (RBFN)
– Pas abordé dans le cadre de ce cours
14
Page 7
Réseau de neurones… Black box???
• Le principal problème des réseaux de neurones
estt qu'ils
'il apparaissent
i
t comme une b
boite
it noire
i (à
cause des couches cachées principalement)
• Très difficile d'expliquer le modèle de prédiction
(problème avec les utilisateurs finaux des
résultats... Business...)
• Solution:
– Appliquer un arbre de décision pour la détermination de
règles sur le résultat du réseau de neurones
15
Déduction de règles (arbres de décision)
• Arbre de décision= représentation graphique
d'
d'une
procédure
éd
de
d classification
l
ifi ti
• Objectif:
– Étant donné un ensemble de valeurs d'attributs (variable
prédictive ou variable endogène)
– Exemple:
p Age,
g , type
yp de véhicule,, …
– Prédire la valeur d'un autre attribut (variable cible ou
variable exogène)
– Exemple: risque d’un client
16
Page 8
Arbre de décision: représentation graphique
17
Outils arbres de décision dans Clementine
• C&RT
• C 5.0
– Ces deux méthodes utilisent des arbres de décision qui
tentent de décrire des segments distincts dans les
données en fonction de l’output désiré (valeur cible)
– Le résultat de ces modèles permet la visualisation des
règles découvertes et facilite ainsi l’interprétation des
résultats (si conditions 1 = x et condition 2 =y,…. alors…)
18
Page 9
Les modèles de prédiction statistique
• Les modèles peuvent être exprimés par des
é
équations
ti
simples
i l
• Aide à l'interprétation
• Calcul d'indicateurs statistiques pour évaluer la
pertinence du résultat
• Inconvénient principal:
– Ces modèles captent plus difficilement des interactions
complexes entre les inputs et les éventuelles relations
non-linéaires
19
Prédiction dans Clementine (1)
• Régression linéaire
– Méthode usuelle
s elle et bien comprise
• Principe:
– Prédire la valeur d'une variable en sortie à l'aide de
variables dites explicatives
– Réservée aux variables de type numériques
– Possibilité avec variable symbolique moyennant une
transformation préalable
• Hypothèse nécessaire:
– Existence d'une relation linéaire entre le résultat et les
facteurs explicatifs
20
Page 10
Régression linéaire représentation graphique
Linear Regression Line Superimposed on Plot
21
Prédiction dans Clementine (2)
• Régression logistique
– S'utilise principalement pour prédire une valeur de type
symbolique
– Habituellement prédit une fonction continue qui
représente la probabilité associé avec une catégorie de
sortie (typiquement o/n)
– Fonction avec courbe en S
22
Page 11
Régression logistique représentation
graphique
Fonction logistique
23
Régression linéaire et logistique
• Régression linéaire
– Rapidité des calculs (1 seul passage dans le jeu des
données)
– Explication très claire du modèle généré
• Régression logistique
– La régression logistique offre en sortie (comme sa
cousine linéaire) des coefficients de régression et des
indicateurs statistiques pour juger de la pertinence du
modèle
– Pas idéale pour traiter des problèmes plus complexes
(préférence pour les réseaux de neurones ou les outils de
recherche de règles)
24
Page 12
Le Clustering
• Objectif:
– Découvrir des groupes d'individus
d individus présentant des
comportements similaires (patterns)
– Techniques très utilisées dans le Marketing (segmentation
de clientèle)
– Parfois utilisé avant un modèle prédictif pour ensuite
modéliser chaque "groupes " individuellement
• Méthodes dans Clementine:
– Réseau de Kohonen
– K-means
– Two-steps clustering
25
Réseau de Kohonen
• Réseau de Kohonen
– Réseau de neurones mais apprentissage non-supervisé
– Pas d'output à prédire
– Recherche de clusters et segmentation de données basé sur la
recherche de patterns à l'aide des variables en input
• Description:
– Kohonen
K h
grille
ill de
d 1 ou 2 dimensions
di
i
de
d neurones artificiels
tifi i l
– Chaque neurone est connecté à chaque neurone d'input
– Poids pour chaque relation du réseau
– Poids d'un neurone = profil pour le cluster du champs utilisé
dans l'analyse
26
Page 13
Kohonen représentation graphique
27
Les K-Means
• Méthode rapide pour explorer les clusters dans
d d
des
données
é
• Utilisateur détermine le nombre de clusters
(groupes) désirés en output
• Le modèle forme les clusters automatiquement
• Chaque enregistrement est assigné au cluster le
plus
l proche
h
• Le valeur centrale du cluster est ensuite
réactualisée en fonction de ce nouveau membre
du groupe
28
Page 14
Two-Step Clustering
• Détermine seul le nombre de clusters
• L'utilisateur spécifie uniquement un range (nb min
et max) pour le nombre de clusters
29
Les règles d’associations
• Description:
– Ces méthodes recherchent des éléments (événements
(événements,
achats,...) que l'on peut retrouver souvent à l'intérieur d'un
jeu de données
– Les algorithmes trouvent automatiquement des patterns
que nous pourrions également remarquer par des
méthodes de visualisation comme le nœud web
• Avantages principaux:
– Rapidité
R idité d
de lla dét
détection
ti ett recherche
h h d'
d'associations
i ti
plus
l
complexes
• Dans Clementine:
– Apriori
– GRI
30
Page 15
Détection de séquences
• Descriptif:
– Recherche de patterns séquentielles dans des données
structurées sur l'axe temps
– Travaille avec des variables uniquement symboliques
(Les variables numériques si elles sont utilisées en entrée
sont transformées avant)
• Applications principales:
– Commerce de détail, web logs et amélioration de
processus
• Dans Clementine:
– CARMA
– CAPRI
31
Quelle méthode choisir???
• Déterminer le catégorie de méthode appropriée ?
– Objectifs, problématique à traiter
– Segmenter – prédire - …
• Choisir le bon algorithme ?
– Dépend en grande partie du jeu de données spécifique
– Procéder par itérations
• Quel modèle choisir ? existe-t-il des règles à
suivre?
32
Page 16