Fouille des données - Maria Malek
Transcription
Fouille des données - Maria Malek
Fouille des données Introduction Maria Malek Filière TSI EISTI Fouille des données – p. 1/? Vous avez dit ? Data Mining ? Fouille des données – p. 2/? Vous avez dit ? Data Mining ? Découverte de connaissances à partir de données ? un processus itératif par lequel on extrait des connaissances valides, nouvelles, potentiellement utiles et compréhensibles [Fayyad et al., 1995] Fouille des données – p. 2/? Vous avez dit ? Data Mining ? Découverte de connaissances à partir de données ? un processus itératif par lequel on extrait des connaissances valides, nouvelles, potentiellement utiles et compréhensibles [Fayyad et al., 1995] "Comment faire parler les données ? " Fouille des données – p. 2/? Autour du data mining : les domaines Apprentissage Automatique (ML) DM : suppose la pré-existence de très grands volumes de données Data mining. Fouille des données – p. 3/? Autour du data mining : les domaines Apprentissage Automatique (ML) DM : suppose la pré-existence de très grands volumes de données Data mining. Statistiques, Analyse des données Stat : but = vérification d’hypothèses. DM : but = découverte de nouvelles connaissances. Fouille des données – p. 3/? Processus du Data Mining - 1 Analyse du problème d’application. Fouille des données – p. 4/? Processus du Data Mining - 1 Analyse du problème d’application. Sélection et exploration des données évaluer la qualité des données, visualiser, analyser les distributions et les regroupements, détecter les insuffisances, pathologies des données. Fouille des données – p. 4/? Processus du Data Mining - 1 Analyse du problème d’application. Sélection et exploration des données évaluer la qualité des données, visualiser, analyser les distributions et les regroupements, détecter les insuffisances, pathologies des données. Pré-traitement des données Fouille des données – p. 4/? Processus du Data Mining - 1 Analyse du problème d’application. Sélection et exploration des données évaluer la qualité des données, visualiser, analyser les distributions et les regroupements, détecter les insuffisances, pathologies des données. Pré-traitement des données nettoyage bruit, valeurs manquantes, valeurs aberrantes, Fouille des données – p. 4/? Processus du Data Mining - 1 Analyse du problème d’application. Sélection et exploration des données évaluer la qualité des données, visualiser, analyser les distributions et les regroupements, détecter les insuffisances, pathologies des données. Pré-traitement des données nettoyage bruit, valeurs manquantes, valeurs aberrantes, réduction sélection des instances sélection, extraction, combinaison des variables, Fouille des données – p. 4/? Processus du Data Mining - 1 Analyse du problème d’application. Sélection et exploration des données évaluer la qualité des données, visualiser, analyser les distributions et les regroupements, détecter les insuffisances, pathologies des données. Pré-traitement des données nettoyage bruit, valeurs manquantes, valeurs aberrantes, réduction sélection des instances sélection, extraction, combinaison des variables, transformation discrétisation des variables continues, binarisation des variables nominales, ajout de nouvelles variables (induction constructive). Fouille des données – p. 4/? Processus du Data Mining - 1 Analyse du problème d’application. Sélection et exploration des données évaluer la qualité des données, visualiser, analyser les distributions et les regroupements, détecter les insuffisances, pathologies des données. Pré-traitement des données nettoyage bruit, valeurs manquantes, valeurs aberrantes, réduction sélection des instances sélection, extraction, combinaison des variables, transformation discrétisation des variables continues, binarisation des variables nominales, ajout de nouvelles variables (induction constructive). Fouille des données – p. 4/? Processus du Data Mining - 4 L’apprentissage «data mining» une méthode d’extraction de connaissances. Fouille des données – p. 5/? Processus du Data Mining - 4 L’apprentissage «data mining» une méthode d’extraction de connaissances. Evaluation et interprétation des résultats critères différents suivant la tâche. Fouille des données – p. 5/? Les données ?? est un enregistrement,un individu (statistique), une instance (orienté objet), un point, un vecteur. Une donnée Fouille des données – p. 6/? Les données ?? est un enregistrement,un individu (statistique), une instance (orienté objet), un point, un vecteur. Une donnée peut être de nature qualitative ou quantitative, ou même un enregistrement (comme la date). Un attribut Fouille des données – p. 6/? Les données ?? est un enregistrement,un individu (statistique), une instance (orienté objet), un point, un vecteur. Une donnée peut être de nature qualitative ou quantitative, ou même un enregistrement (comme la date). Un attribut Structure de base : un exemple/cas/observation = vecteur de p attributs ou variables chaque attribut prend sa valeur dans un domaine donné. Fouille des données – p. 6/? Les données ?? est un enregistrement,un individu (statistique), une instance (orienté objet), un point, un vecteur. Une donnée peut être de nature qualitative ou quantitative, ou même un enregistrement (comme la date). Un attribut Structure de base : un exemple/cas/observation = vecteur de p attributs ou variables chaque attribut prend sa valeur dans un domaine donné. Ensemble d’attribut - valeur : Techniques de logique d’ordre 0 ou propositionnelle. Fouille des données – p. 6/? Les données ?? est un enregistrement,un individu (statistique), une instance (orienté objet), un point, un vecteur. Une donnée peut être de nature qualitative ou quantitative, ou même un enregistrement (comme la date). Un attribut Structure de base : un exemple/cas/observation = vecteur de p attributs ou variables chaque attribut prend sa valeur dans un domaine donné. Ensemble d’attribut - valeur : Techniques de logique d’ordre 0 ou propositionnelle. Attributs & relations : Apprentissage relationnel & programmation inductive logique (logique de prédicats). Fouille des données – p. 6/? Les données : exemple - 1 NUM CIEL TEMP. HUMI. VENT CLASSE 1 ensoleillé élevé forte non N 2 ensoleillé élevé forte oui N 3 couvert élevé forte non P 4 pluvieux moyenne forte non P 5 pluvieux basse normale non P 6 pluvieux basse normale oui N 7 couvert basse normale oui P Table 1: Description des conditions météorologiques Fouille des données – p. 7/? Les données : exemple - 2 NUM CIEL TEMP. HUMI. VENT CLASSE 8 ensoleillé moyenne forte non N 9 ensoleillé basse normale non P 10 pluvieux moyenne normale non P 11 ensoleillé moyenne normale oui P 12 couvert moyenne forte oui P 13 couvert élevé normale non P 14 pluvieux moyenne forte oui N Table 2: Description des conditions météorologiques Fouille des données – p. 8/? Nature des variables .. Indépendante & Dépendante Fouille des données – p. 9/? Nature des variables .. Indépendante & Dépendante Variable indépendante/explicative/prédictive : variable dont la valeur est obtenue par observation Fouille des données – p. 9/? Nature des variables .. Indépendante & Dépendante Variable indépendante/explicative/prédictive : variable dont la valeur est obtenue par observation Variable dépendante/réponse/cible : variable dont la valeur dépend d’autres variables Fouille des données – p. 9/? Nature des variables .. Indépendante & Dépendante Variable indépendante/explicative/prédictive : variable dont la valeur est obtenue par observation Variable dépendante/réponse/cible : variable dont la valeur dépend d’autres variables Apprentissage supervisé & non supervisé Fouille des données – p. 9/? Nature des variables .. Indépendante & Dépendante Variable indépendante/explicative/prédictive : variable dont la valeur est obtenue par observation Variable dépendante/réponse/cible : variable dont la valeur dépend d’autres variables Apprentissage supervisé & non supervisé Apprentissage non supervisé : pas de variable cible ex. regroupement (clustering). Fouille des données – p. 9/? Nature des variables .. Indépendante & Dépendante Variable indépendante/explicative/prédictive : variable dont la valeur est obtenue par observation Variable dépendante/réponse/cible : variable dont la valeur dépend d’autres variables Apprentissage supervisé & non supervisé Apprentissage non supervisé : pas de variable cible ex. regroupement (clustering). Apprentissage supervisé : une variable cible (valeur à prédire) ex. classification. Fouille des données – p. 9/? Résultat du processus Connaissances sont extraites sous forme d’un : Fouille des données – p. 10/? Résultat du processus Connaissances sont extraites sous forme d’un : modèle : un résumé global de l’ensemble de données applicable sur n’importe quelle instance appartenant à l’espace des données ; Fouille des données – p. 10/? Résultat du processus Connaissances sont extraites sous forme d’un : modèle : un résumé global de l’ensemble de données applicable sur n’importe quelle instance appartenant à l’espace des données ; motif (pattern) : résumé local d’une région de l’espace des données ; exemple : une règle. Fouille des données – p. 10/? Applications du Data Mining Domaines supervisés : Fouille des données – p. 11/? Applications du Data Mining Domaines supervisés : Chaque instance = p variables prédictives + 1 variable cible (à prédire) Fouille des données – p. 11/? Applications du Data Mining Domaines supervisés : Chaque instance = p variables prédictives + 1 variable cible (à prédire) Classification : variable une maladie, etc. cible discrète Exemple : diagnostiquer Fouille des données – p. 11/? Applications du Data Mining Domaines supervisés : Chaque instance = p variables prédictives + 1 variable cible (à prédire) Classification : variable une maladie, etc. Régression : variable valeur d’un bien, etc. cible discrète Exemple : diagnostiquer cible continue Exemple : estimer la Fouille des données – p. 11/? Applications du Data Mining Domaines supervisés : Chaque instance = p variables prédictives + 1 variable cible (à prédire) Classification : variable une maladie, etc. Régression : variable valeur d’un bien, etc. cible discrète Exemple : diagnostiquer cible continue Exemple : estimer la Domaines non supervisés : Fouille des données – p. 11/? Applications du Data Mining Domaines supervisés : Chaque instance = p variables prédictives + 1 variable cible (à prédire) Classification : variable une maladie, etc. Régression : variable valeur d’un bien, etc. cible discrète Exemple : diagnostiquer cible continue Exemple : estimer la Domaines non supervisés : Regroupement(clustering) Exemple : détecter le profil utilisateur,etc. Fouille des données – p. 11/? Applications du Data Mining Domaines supervisés : Chaque instance = p variables prédictives + 1 variable cible (à prédire) Classification : variable une maladie, etc. Régression : variable valeur d’un bien, etc. cible discrète Exemple : diagnostiquer cible continue Exemple : estimer la Domaines non supervisés : Regroupement(clustering) Exemple : détecter le profil utilisateur,etc. Association Exemple analyser les logs utilisateurs d’un serveur web, etc. Fouille des données – p. 11/? Tâches du Data Mining Prédiction : Classification, Régression, Association. Fouille des données – p. 12/? Tâches du Data Mining Prédiction : Classification, Régression, Association. Description Visualisation, Regroupement, Association. Fouille des données – p. 12/? Conception d’un algorithme DM Structure de modèle/motif : la forme des connaissances à extraire des données : arbre de décision, réseau de neurones. Fouille des données – p. 13/? Conception d’un algorithme DM Structure de modèle/motif : la forme des connaissances à extraire des données : arbre de décision, réseau de neurones. Fonction d’évaluation : permet de mesurer la qualité d’un modèle ; Exemple : classification: taux d’exemples bien classés. Fouille des données – p. 13/? Conception d’un algorithme DM Structure de modèle/motif : la forme des connaissances à extraire des données : arbre de décision, réseau de neurones. Fonction d’évaluation : permet de mesurer la qualité d’un modèle ; Exemple : classification: taux d’exemples bien classés. Méthode de recherche : stratégie utilisée pour parcourir l’espace d’hypothèses et pour trouver celle qui optimise la fonction d’évaluation. Fouille des données – p. 13/? Conception d’un algorithme DM Structure de modèle/motif : la forme des connaissances à extraire des données : arbre de décision, réseau de neurones. Fonction d’évaluation : permet de mesurer la qualité d’un modèle ; Exemple : classification: taux d’exemples bien classés. Méthode de recherche : stratégie utilisée pour parcourir l’espace d’hypothèses et pour trouver celle qui optimise la fonction d’évaluation. Stratégie de gestion des données : la façon de stocker, d’indexer et d’accéder aux données. Fouille des données – p. 13/? Côté Pratique .. Etude de la problématique de la classification Fouille des données – p. 14/? Côté Pratique .. Etude de la problématique de la classification Comment valider un classifieur. Fouille des données – p. 14/? Côté Pratique .. Etude de la problématique de la classification Comment valider un classifieur. Etude de l’algorithme k plus proche voisins . Fouille des données – p. 14/? Côté Pratique .. Etude de la problématique de la classification Comment valider un classifieur. Etude de l’algorithme k plus proche voisins . Utilisation du logiciel Weka. Fouille des données – p. 14/? La classification Types de classeurs Construction d’un modèle arborescent permettant de prédire la classe d’une donnée. Estimation directe de la classe d’une donnée en fonction des exemples. Construction d’un modèle réglable par l’humain (les réseaux de neurones, et les machines à vecteurs supports). Fouille des données – p. 15/? Validation d’un classeur - 1 L’erreur d’un classeur Er est la probabilité que ce classeur ne prédise pas correctement la classe d’une donnée. Fouille des données – p. 16/? Validation d’un classeur - 1 L’erreur d’un classeur Er est la probabilité que ce classeur ne prédise pas correctement la classe d’une donnée. Le taux de succès est 1 − Er. Fouille des données – p. 16/? Validation d’un classeur - 1 L’erreur d’un classeur Er est la probabilité que ce classeur ne prédise pas correctement la classe d’une donnée. Le taux de succès est 1 − Er. L’erreur apparente Erapp est mesurée sur les exemples utilisés pour la construction du classeur. Fouille des données – p. 16/? Validation d’un classeur - 1 L’erreur d’un classeur Er est la probabilité que ce classeur ne prédise pas correctement la classe d’une donnée. Le taux de succès est 1 − Er. L’erreur apparente Erapp est mesurée sur les exemples utilisés pour la construction du classeur. Estimer la qualité d’un classeur : L’ensemble d’apprentissage Xapp ; L’ensemble de test Xtest qui permet d’estimer l’erreur de classification ; on connaît la classe de chaque exemple dans cet l’ensemble. Fouille des données – p. 16/? Validation d’un classeur - 2 Mesure de qualité d’un classeur : cas de classification binaire : Fouille des données – p. 17/? Validation d’un classeur - 2 Mesure de qualité d’un classeur : cas de classification binaire : VP/VN : Le nombre de vrais positifs/négatifs : les exemples de classe positive/négative et dont la classe est prédite comme positive/négative. Fouille des données – p. 17/? Validation d’un classeur - 2 Mesure de qualité d’un classeur : cas de classification binaire : VP/VN : Le nombre de vrais positifs/négatifs : les exemples de classe positive/négative et dont la classe est prédite comme positive/négative. FP/FN : Les exemples de classe négative/positive et dont la classe est prédite comme positive/négative. Fouille des données – p. 17/? Validation d’un classeur - 2 Mesure de qualité d’un classeur : cas de classification binaire : VP/VN : Le nombre de vrais positifs/négatifs : les exemples de classe positive/négative et dont la classe est prédite comme positive/négative. FP/FN : Les exemples de classe négative/positive et dont la classe est prédite comme positive/négative. Construction de la matrice de confusion .. + + VP FN - FP VN Fouille des données – p. 17/? Validation d’un classeur - 3 Mesure de qualité d’un classeur : cas de classification binaire : Fouille des données – p. 18/? Validation d’un classeur - 3 Mesure de qualité d’un classeur : cas de classification binaire : On définit dans la suite quatre mesures : P La précision pour les positifs et les négatifs : V PV+F P, VN V N +F N ; le rappel sur les positifs et les négatifs VN P , : : V PV+F N V N +F P . La précision mesure la proportion des exemples vraiment positifs parmi ceux qui étaient classés positifs. Le rappel mesure la proportion des exemples positifs trouvés parmi tous les exemples positifs. Fouille des données – p. 18/? Validation d’un classeur - 3 Mesure de qualité d’un classeur : cas de classification binaire : On définit dans la suite quatre mesures : P La précision pour les positifs et les négatifs : V PV+F P, VN V N +F N ; le rappel sur les positifs et les négatifs VN P , : : V PV+F N V N +F P . La précision mesure la proportion des exemples vraiment positifs parmi ceux qui étaient classés positifs. Le rappel mesure la proportion des exemples positifs trouvés parmi tous les exemples positifs. Fouille des données – p. 18/? Validation d’un classeur - 3 Mesure de qualité d’un classeur : cas de classification binaire : On définit dans la suite quatre mesures : P La précision pour les positifs et les négatifs : V PV+F P, VN V N +F N ; le rappel sur les positifs et les négatifs VN P , : : V PV+F N V N +F P . La précision mesure la proportion des exemples vraiment positifs parmi ceux qui étaient classés positifs. Le rappel mesure la proportion des exemples positifs trouvés parmi tous les exemples positifs. Fouille des données – p. 18/? Validation d’un classeur - 4 Technique : validation croisée : Découper l’ensemble d’exemples en n sous ensembles disjoints. Chaque classe doit apparaître avec les même fréquence dans les n ensembles. Soit A,B,C une division en trois sous ensemble, Le classifieur construit à partir de A ∪ B est appelé ADA∪B , L’erreur de généralisation calculée sur C est appelé Erc . Le taux d’erreur est alors estimée par Er = ErA +ErB +Erc 3 Fouille des données – p. 19/? Validation d’un classeur - 4 Technique : validation croisée : Découper l’ensemble d’exemples en n sous ensembles disjoints. Chaque classe doit apparaître avec les même fréquence dans les n ensembles. Soit A,B,C une division en trois sous ensemble, Le classifieur construit à partir de A ∪ B est appelé ADA∪B , L’erreur de généralisation calculée sur C est appelé Erc . Le taux d’erreur est alors estimée par Er = ErA +ErB +Erc 3 Fouille des données – p. 19/? Validation d’un classeur - 5 Méthode Bootstrap : Un ensemble E : nous construisons l’ensemble d’apprentissage Xapp . Les exemples qui restent constituent l’ensemble Xtest . on effectue N tirages aléatoires a partir de E avec remise. La probabilité qu’un exemple x ne soit jamais tiré est égal à (1 − N1 )N , N − > +∞, e−1 = 0.368 |Xapp | = 63.2, |Xgn | = 36.8 E = 0.368 ∗ Eapp + 0.632 ∗ Etest Fouille des données – p. 20/?