Introduction à la modélisation
Transcription
Introduction à la modélisation
Option_Data Option Data Mining Introduction à la modélisation Dan Noël 1 Objectifs de la session • Présenter les algorithmes principaux de Data Mining ainsi que les outils Clementine en rapport 2 Page 1 Principaux thèmes de Data Mining (1) • Thème 1: Classification – Examiner les caractéristiques d’un « objet » et lui attribuer une classe • Exemples: – Accorder oui ou non un prêt hypothécaire – Etablir un diagnostic en fonction d’éléments d éléments observés – … 3 Principaux thèmes de Data Mining (2) • Thème 2: Prédiction – prédire la valeur d'une variable en fonction d'autres éléments connus • Exemple: – Prédire le risque d’un client sur la base de son revenu, ancienneté ou autres éléments financiers/personnels – … 4 Page 2 Principaux thèmes de Data Mining (3) • Thème 3: Segmentation – former des groupes homogènes à l'intérieur d'une population • Exemple: – Déterminer des groupes de clients homogènes pour ensuite réaliser une approche commerciale segmentée – … 5 Principaux thèmes de Data Mining (4) • Thème 4: Association – déterminer automatiquement les éventuelles corrélations/relations entre différents éléments • Exemples: – Analyse du panier de la ménagère – Analyse de parcours des internautes sur un site de vente – … 6 Page 3 Les différents types d’apprentissages • Apprentissage supervisé – Processus dans lequel l'apprenant reçoit des exemples d'apprentissage comprenant à la fois des données d'entrée et de sortie • Méthodes: classification, prédiction • Apprentissage non non-supervisé supervisé – processus dans lequel l'apprenant reçoit des exemples d'apprentissage ne comprenant que des données d'entrée • Méthodes: association, segmentation 7 Classification selon la nature des modèles • Modèles prédictifs – Utilisent les données avec des résultats connus pour p développer des modèles permettant de prédire les valeurs d'autres données • Exemple: modèle permettant de prédire les clients qui ne rembourseront pas leur crédit • Méthodes: classification, prédiction • Modèles descriptifs – Proposent des descriptions des données pour aide à la décision. Les modèles descriptifs aident souvent à la construction de modèles prédictifs • Méthodes: segmentation, Association 8 Page 4 Panorama des diverses méthodes de DM Prédiction: • Régressions • Arbres de décision • Réseaux de neurones •… Segmentation: • K means • K plus proches voisins • Réseaux de neurones •… Classification: Association: • Arbres de décision • Règles d'association • K plus proches voisins •… • Réseaux de neurones •… 9 Introduction aux algorithmes principaux • Les réseaux de neurones • Les arbres de décision • La régression linéaire • La régression logistique • Le clustering • Réseau de Kohonen • K-Means • Les règles d’associations • … 10 Page 5 Les réseaux de neurones • Idée de base: – Construire des "machines" machines à résoudre des problèmes sur le modèle de fonctionnement du cerveau humain • Concept: – Plusieurs neurones arrangés en couches pour créer un "réseau" • Neurone: – Elément indépendant qui se charge d'une d une tâche spécifique dans le cadre de la résolution de problème – Les relations entre les neurones donnent la possibilité au réseau d'apprendre les patterns et les interrelations dans les données (pondération - poids) 11 Réseau de neurones: représentation COUCHE ENTREE COUCHE CACHEE COUCHE SORTIE 12 Page 6 Le réseau de neurones dans Clementine • la couche d'entrée: T t les Toutes l variables i bl choisies h i i pour prédire édi lle résultat é lt t de sortie • La couche sortie: La variable à prédire qui peut être soit numérique ou symbolique • La couche cachée: Ensemble des neurones résultant du mix des variables primaires de la couche d'entrée 13 Outils réseaux de neurones dans Clementine • Multi-layer perceptron (MLP) – Dans un MLP les couches cachées reçoivent en "input" une combinaison "pondérée" des output des neurones de la couche précédente – Les neurones de la dernière couche sont arrangés pour donner en output le résultat final de la prédiction • Radial Basis Function Network (RBFN) – Pas abordé dans le cadre de ce cours 14 Page 7 Réseau de neurones… Black box??? • Le principal problème des réseaux de neurones estt qu'ils 'il apparaissent i t comme une b boite it noire i (à cause des couches cachées principalement) • Très difficile d'expliquer le modèle de prédiction (problème avec les utilisateurs finaux des résultats... Business...) • Solution: – Appliquer un arbre de décision pour la détermination de règles sur le résultat du réseau de neurones 15 Déduction de règles (arbres de décision) • Arbre de décision= représentation graphique d' d'une procédure éd de d classification l ifi ti • Objectif: – Étant donné un ensemble de valeurs d'attributs (variable prédictive ou variable endogène) – Exemple: p Age, g , type yp de véhicule,, … – Prédire la valeur d'un autre attribut (variable cible ou variable exogène) – Exemple: risque d’un client 16 Page 8 Arbre de décision: représentation graphique 17 Outils arbres de décision dans Clementine • C&RT • C 5.0 – Ces deux méthodes utilisent des arbres de décision qui tentent de décrire des segments distincts dans les données en fonction de l’output désiré (valeur cible) – Le résultat de ces modèles permet la visualisation des règles découvertes et facilite ainsi l’interprétation des résultats (si conditions 1 = x et condition 2 =y,…. alors…) 18 Page 9 Les modèles de prédiction statistique • Les modèles peuvent être exprimés par des é équations ti simples i l • Aide à l'interprétation • Calcul d'indicateurs statistiques pour évaluer la pertinence du résultat • Inconvénient principal: – Ces modèles captent plus difficilement des interactions complexes entre les inputs et les éventuelles relations non-linéaires 19 Prédiction dans Clementine (1) • Régression linéaire – Méthode usuelle s elle et bien comprise • Principe: – Prédire la valeur d'une variable en sortie à l'aide de variables dites explicatives – Réservée aux variables de type numériques – Possibilité avec variable symbolique moyennant une transformation préalable • Hypothèse nécessaire: – Existence d'une relation linéaire entre le résultat et les facteurs explicatifs 20 Page 10 Régression linéaire représentation graphique Linear Regression Line Superimposed on Plot 21 Prédiction dans Clementine (2) • Régression logistique – S'utilise principalement pour prédire une valeur de type symbolique – Habituellement prédit une fonction continue qui représente la probabilité associé avec une catégorie de sortie (typiquement o/n) – Fonction avec courbe en S 22 Page 11 Régression logistique représentation graphique Fonction logistique 23 Régression linéaire et logistique • Régression linéaire – Rapidité des calculs (1 seul passage dans le jeu des données) – Explication très claire du modèle généré • Régression logistique – La régression logistique offre en sortie (comme sa cousine linéaire) des coefficients de régression et des indicateurs statistiques pour juger de la pertinence du modèle – Pas idéale pour traiter des problèmes plus complexes (préférence pour les réseaux de neurones ou les outils de recherche de règles) 24 Page 12 Le Clustering • Objectif: – Découvrir des groupes d'individus d individus présentant des comportements similaires (patterns) – Techniques très utilisées dans le Marketing (segmentation de clientèle) – Parfois utilisé avant un modèle prédictif pour ensuite modéliser chaque "groupes " individuellement • Méthodes dans Clementine: – Réseau de Kohonen – K-means – Two-steps clustering 25 Réseau de Kohonen • Réseau de Kohonen – Réseau de neurones mais apprentissage non-supervisé – Pas d'output à prédire – Recherche de clusters et segmentation de données basé sur la recherche de patterns à l'aide des variables en input • Description: – Kohonen K h grille ill de d 1 ou 2 dimensions di i de d neurones artificiels tifi i l – Chaque neurone est connecté à chaque neurone d'input – Poids pour chaque relation du réseau – Poids d'un neurone = profil pour le cluster du champs utilisé dans l'analyse 26 Page 13 Kohonen représentation graphique 27 Les K-Means • Méthode rapide pour explorer les clusters dans d d des données é • Utilisateur détermine le nombre de clusters (groupes) désirés en output • Le modèle forme les clusters automatiquement • Chaque enregistrement est assigné au cluster le plus l proche h • Le valeur centrale du cluster est ensuite réactualisée en fonction de ce nouveau membre du groupe 28 Page 14 Two-Step Clustering • Détermine seul le nombre de clusters • L'utilisateur spécifie uniquement un range (nb min et max) pour le nombre de clusters 29 Les règles d’associations • Description: – Ces méthodes recherchent des éléments (événements (événements, achats,...) que l'on peut retrouver souvent à l'intérieur d'un jeu de données – Les algorithmes trouvent automatiquement des patterns que nous pourrions également remarquer par des méthodes de visualisation comme le nœud web • Avantages principaux: – Rapidité R idité d de lla dét détection ti ett recherche h h d' d'associations i ti plus l complexes • Dans Clementine: – Apriori – GRI 30 Page 15 Détection de séquences • Descriptif: – Recherche de patterns séquentielles dans des données structurées sur l'axe temps – Travaille avec des variables uniquement symboliques (Les variables numériques si elles sont utilisées en entrée sont transformées avant) • Applications principales: – Commerce de détail, web logs et amélioration de processus • Dans Clementine: – CARMA – CAPRI 31 Quelle méthode choisir??? • Déterminer le catégorie de méthode appropriée ? – Objectifs, problématique à traiter – Segmenter – prédire - … • Choisir le bon algorithme ? – Dépend en grande partie du jeu de données spécifique – Procéder par itérations • Quel modèle choisir ? existe-t-il des règles à suivre? 32 Page 16