Exploration des données issues d`Internet
Transcription
Exploration des données issues d`Internet
Exploration des données issues d’Internet Khalid Benabdeslem & Farida Zehraoui Université Paris 13, LIPN-CNRS, UMR 7030 La nature des donné données Pré-traitement (1) Codage (2) Classification (3) Adaptation classement du site Web Prédiction Reconnaissance dynamique Analyse Descriptive Problé Problématique Typologie (4) Pré Pré-traitement & Codage Autres données Aspect Temporel Fichier Épuré Pré-traitement Bruit Fichier LOG Données démographiques Volume 195.154.37.61 - - [30/Jun/2000:23:59:07 +0200] "GET /123credit/gene/image/mpasson.gif HTTP/1.1" 200 189 212.155.170.16 - - [30/Jun/2000:23:59:07 +0200] "GET /123credit/gene/image/retoff.gif HTTP/1.1" 404 359 212.155.170.16 - - [30/Jun/2000:23:59:02 +0200] "POST /cgi-bin/bvsm/123credit/sous/scripts/register_c.jsp HTTP/1.1" 200 195.154.37.61 - - [30/Jun/2000:23:59:07 +0200] "GET /123credit/gene/image/mpassoff.gif HTTP/1.1" 200 276 195.154.37.61 - - [30/Jun/2000:23:59:11 +0200] "GET /123credit/gene/image/suiton.gif HTTP/1.1" 404 358 212.155.170.16 - - [30/Jun/2000:23:59:06 +0200] "GET /123credit/gene/image/suiton.gif HTTP/1.1" 404 359 195.154.37.61 - - [30/Jun/2000:23:59:04 +0200] "GET /123credit/gene/javascript/validation.js HTTP/1.1" 200 1404 195.154.37.61 - - [30/Jun/2000:23:59:02 +0200] "POST /cgi-bin/bvsm/123credit/accu/scripts/accu_gene.jsp HTTP/1.1" 200 195.154.37.61 - - [30/Jun/2000:23:59:12 +0200] "GET /123credit/gene/image/suitoff.gif HTTP/1.1" 404 358 212.155.170.16 - - [30/Jun/2000:23:59:05 +0200] "GET /123credit/gene/image/croixon.gif HTTP/1.1" 404 359 193.252.35.200 - - [30/Jun/2000:23:59:13 +0200] "GET /123credit/gene/image/mpasson.gif HTTP/1.1" 200 189 212.155.170.16 - - [30/Jun/2000:23:59:06 +0200] "GET /123credit/gene/image/suitoff.gif HTTP/1.1" 404 359 212.155.170.16 - - [30/Jun/2000:23:59:07 +0200] "GET /123credit/gene/image/reton.gif HTTP/1.1" 404 359 193.252.35.200 - - [30/Jun/2000:23:59:12 +0200] "GET /123credit/gene/image/okoff.gif HTTP/1.1" 200 296 195.154.37.61 - - [30/Jun/2000:23:59:06 +0200] "GET /123credit/gene/image/okoff.gif HTTP/1.1" 200 296 195.154.37.61 - - [30/Jun/2000:23:59:06 +0200] "GET /123credit/gene/image/okon.gif HTTP/1.1" 200 259 195.154.37.61 - - [30/Jun/2000:23:59:08 +0200] "GET /123credit/gene/image/lecton.gif HTTP/1.1" 200 126 193.252.35.200 - - [30/Jun/2000:23:59:13 +0200] "GET /123credit/gene/image/mpassoff.gif HTTP/1.1" 200 276 195.154.37.61 - - [30/Jun/2000:23:59:09 +0200] "GET /123credit/gene/image/croixon.gif HTTP/1.1" 404 358 193.252.35.200 - - [30/Jun/2000:23:59:11 +0200] "GET /123credit/gene/javascript/validation.js HTTP/1.1" 200 1404 212.155.170.16 - - [30/Jun/2000:23:59:05 +0200] "GET /123credit/gene/image/croixoff.gif HTTP/1.1" 404 359 193.252.35.200 - - [30/Jun/2000:23:59:12 +0200] "GET /123credit/gene/javascript/rollover.js HTTP/1.1" 200 1614 195.154.37.61 - - [30/Jun/2000:23:59:05 +0200] "GET /123credit/gene/javascript/rollover.js HTTP/1.1" 200 1614 Données Produits Données comportementales Tableaux de bord Statistiques De base Nb pages par session 40% 36.3% 35% 32340 30030 27720 30% 25410 25% Percent of obs Gratuites et disponibles Sessionage 23100 20790 20% 18480 17.2% 16170 15% 13860 11.5% 11550 10.9% 10% 9240 6.4% 4.2% 5% 5.1% 3.1% 6930 4620 2.8% 1.6% 2310 0% 0 1 2 3 4 5 6 7 8 9 10 Graphiques Fichier de sessions Codage Fichier Codé adresse IP Identificateur Date/heure Méthode URL code résultat Taille Systè Système RàPC pour la pré prévision à partir de navigations Visualisation des donné données de navigations Navigation codé codée : Cas cible = (problème, solution =?) Prévision solution : But final de l’utilisateur du site : « achat, non achat » Fichier Codé CONTROLEUR lancement Sousc ription Reserve Fic he technique Auto Fiche Technique pers o Fiche technique Res erve Pieces justificatives Fiche technique Auto Produit travaux Les differents credits Loi Neiertz Comprendre le taux du c redit Produit travaux Produit travaux Dialoguez avec nous Rembourcement antic ipé Sousc ription Auto 17 (3) Apprentissage Apprentissage Produit traveaux 1 Dialoguez avec nous Info Credit Analyse Les delais pour obtenir le credit Mot de pass e oublié 17 La foire aux questions Analyser votre capacite d'emprunt Analyser votre capacite d'emprunt Les infos pour obtenir votre credit La foire aux questions Qui somme nous Analyser votre capacite d'emprunt Les differents credits Loi Neiertz Pieces justificatives Acc ueil Pieces justificatives Pieces justificatives Comprendre le taux du credit Contactez nous Entree lancement Prédiction Ajout de cas Moteur Rà RàPC1 CAH Sous cription Aiguillage Souscription Pers o Prédiction Maintenance e-SOM : SOM Évolutive Moteur Rà RàPC2 (1) Recherche Recherche Base de cas Réutilisation Réutilisation (2) (1) Recherche Recherche Base de navigations (3) Apprentissage Apprentissage Réutilisation Réutilisation (2) Contactez nous Cartes topologiques (SOM) pour le traitement des navigations Cartographie du site M-SOM : SOM matricielle x(0) Typologie des sessions de navigation X(t) Classification et classement des navigations après modélisation en matrices de covariance COVx Modélisation : matrice de covariance M-SOM Classe x(t) Nb pages par session 40% 36.3% 32340 Souscription Reserve Souscription Aiguillage Fiche technique Auto Fiche Technique perso Fiche technique Reserve Pieces justificatives Fiche technique Auto Loi Neiertz Comprendre le taux du credit Produit travaux Produit t ravaux Dialoguez avec nous Rembourcement anticipé 17 Produit traveaux SOM-ART 30030 Souscription Perso 27720 Produit t ravaux 25410 Souscription Auto 23100 Projection 1 Dialoguez avec nous Info Credit Analyse Les delais pour obtenir le credit Mot de passe oublié 17 La foire aux questions Analyser votre capacite d'emprunt Analyser votre capacite d'e mprunt Les infos pour obtenir votre credit La foire aux questions Qui somme nous Analyser votre capacite d'e mprunt Comprendre le taux du credit Contactez nous 11550 9240 4620 2310 10 Les differents credits Loi Neiertz Pieces justificatives Accueil Pieces justificatives Pieces justificatives Entree Contactez nous R 6 5 4 3 2 1 DTW CAH M-SOMSOM-ART x(0) T Mélange de modèles de Markov Séquences de neurones Autoroutes X(t) Modélisation : matrice de covariance COVx x(t) (Sessions de navigations prototype) Résultats Résultats Cartes SOM A2 A3 A4 A5 A6 A7 A8 A9 A10 Total A1 1000 0 0 0 0 0 0 0 0 0 1000 A2 0 1000 0 0 0 0 0 0 0 0 1000 A3 0 0 1000 0 0 0 0 0 0 0 1000 A4 0 0 0 1000 0 0 0 0 0 0 1000 A5 0 0 0 0 1000 0 0 0 0 0 1000 A6 0 0 0 0 0 1000 0 0 0 0 1000 A7 0 0 0 33 0 10 923 0 34 0 1000 A8 0 0 0 0 0 0 0 1000 0 0 1000 A9 0 00 0 0 0 0 0 0 1000 0 1000 A10 0 0 0 0 0 0 0 0 0 1000 1000 Reconnaissance des sessions par rapport aux classes de sessions prototypes 1 × M-SOM × SOMTemp × SOTPAR × SOM Espace ROC : Comparaison des ré résultats de classement 0 1 - Spé Spécificité cificité 1 160 140 - 3 6 0 0 0 0 120 100 - 3 6 5 0 0 0 SOM Kohonen HSOM 80 - 3 7 0 0 0 0 Nombre de neurones 328 SOMSOM-ART 1026 Version Evolutive 40 20 - 3 8 0 0 0 0 7 8 N o m 9 b r e 1 0 d e 1 1 C la s s e s 1 2 1 3 K Critère d’informations sur le calcul du nombre de classes de sessions Résultat global aprè après 0 200 400 600 800 1000 1260 partition de la base Comparaison du nombre de neurones dans SOM 85,04% Rappel avec MBC Clic 60 - 3 7 5 0 0 0 Rappel sans MBC Comparaison de la pré précision 180 - 3 5 5 0 0 0 100 80 60 40 20 0 Comparaison de SOM et SOMSOM-ART 200 - 3 5 0 0 0 0 AIC Systè Système RàPC Comparaison du rappel 1 A1 Sensibilité é Sensibilit Autoroutes A IC ( K ) Classification et classement des navigations ayant les propriétés de stabilité et de plasticité Classe M-SOM_ART 17 9 15 1.6% 82.37% 100 80 60 40 20 0 Précision sans MBC Précision avec MBC Clic 17 8 13 6 15 5 13 4 9 3 11 2 11 2.8% 7 0 1 7 5.1% 3.1% 0% SOM évolutive pour le classement et la classification des navigations. Propriétés de plasticité et de stabilité fournies par le réseau ART pour une utilisation à long terme du réseau. 9 4.2% 5% 6930 5 6.4% 7 10.9% 3 16170 13860 11.5% 10% 5 17.2% 15% Les differents credits 3 Echantiollonage 20790 18480 1 Percent of obs 25% 20% Rappell(%) 30% P ré c is io n (% ) 35% Fichier de sessions 0