Exploration des données issues d`Internet

Transcription

Exploration des données issues d`Internet
Exploration des données issues d’Internet
Khalid Benabdeslem & Farida Zehraoui
Université Paris 13, LIPN-CNRS, UMR 7030
La nature des donné
données
Pré-traitement (1)
Codage (2)
Classification (3)
Adaptation
classement
du site Web
Prédiction
Reconnaissance dynamique
Analyse Descriptive
Problé
Problématique
Typologie (4)
Pré
Pré-traitement & Codage
Autres données
Aspect Temporel
Fichier
Épuré
Pré-traitement
Bruit
Fichier LOG
Données démographiques
Volume
195.154.37.61 - - [30/Jun/2000:23:59:07 +0200] "GET /123credit/gene/image/mpasson.gif HTTP/1.1" 200 189
212.155.170.16 - - [30/Jun/2000:23:59:07 +0200] "GET /123credit/gene/image/retoff.gif HTTP/1.1" 404 359
212.155.170.16 - - [30/Jun/2000:23:59:02 +0200] "POST /cgi-bin/bvsm/123credit/sous/scripts/register_c.jsp HTTP/1.1" 200 195.154.37.61 - - [30/Jun/2000:23:59:07 +0200] "GET /123credit/gene/image/mpassoff.gif HTTP/1.1" 200 276
195.154.37.61 - - [30/Jun/2000:23:59:11 +0200] "GET /123credit/gene/image/suiton.gif HTTP/1.1" 404 358
212.155.170.16 - - [30/Jun/2000:23:59:06 +0200] "GET /123credit/gene/image/suiton.gif HTTP/1.1" 404 359
195.154.37.61 - - [30/Jun/2000:23:59:04 +0200] "GET /123credit/gene/javascript/validation.js HTTP/1.1" 200 1404
195.154.37.61 - - [30/Jun/2000:23:59:02 +0200] "POST /cgi-bin/bvsm/123credit/accu/scripts/accu_gene.jsp HTTP/1.1" 200 195.154.37.61 - - [30/Jun/2000:23:59:12 +0200] "GET /123credit/gene/image/suitoff.gif HTTP/1.1" 404 358
212.155.170.16 - - [30/Jun/2000:23:59:05 +0200] "GET /123credit/gene/image/croixon.gif HTTP/1.1" 404 359
193.252.35.200 - - [30/Jun/2000:23:59:13 +0200] "GET /123credit/gene/image/mpasson.gif HTTP/1.1" 200 189
212.155.170.16 - - [30/Jun/2000:23:59:06 +0200] "GET /123credit/gene/image/suitoff.gif HTTP/1.1" 404 359
212.155.170.16 - - [30/Jun/2000:23:59:07 +0200] "GET /123credit/gene/image/reton.gif HTTP/1.1" 404 359
193.252.35.200 - - [30/Jun/2000:23:59:12 +0200] "GET /123credit/gene/image/okoff.gif HTTP/1.1" 200 296
195.154.37.61 - - [30/Jun/2000:23:59:06 +0200] "GET /123credit/gene/image/okoff.gif HTTP/1.1" 200 296
195.154.37.61 - - [30/Jun/2000:23:59:06 +0200] "GET /123credit/gene/image/okon.gif HTTP/1.1" 200 259
195.154.37.61 - - [30/Jun/2000:23:59:08 +0200] "GET /123credit/gene/image/lecton.gif HTTP/1.1" 200 126
193.252.35.200 - - [30/Jun/2000:23:59:13 +0200] "GET /123credit/gene/image/mpassoff.gif HTTP/1.1" 200 276
195.154.37.61 - - [30/Jun/2000:23:59:09 +0200] "GET /123credit/gene/image/croixon.gif HTTP/1.1" 404 358
193.252.35.200 - - [30/Jun/2000:23:59:11 +0200] "GET /123credit/gene/javascript/validation.js HTTP/1.1" 200 1404
212.155.170.16 - - [30/Jun/2000:23:59:05 +0200] "GET /123credit/gene/image/croixoff.gif HTTP/1.1" 404 359
193.252.35.200 - - [30/Jun/2000:23:59:12 +0200] "GET /123credit/gene/javascript/rollover.js HTTP/1.1" 200 1614
195.154.37.61 - - [30/Jun/2000:23:59:05 +0200] "GET /123credit/gene/javascript/rollover.js HTTP/1.1" 200 1614
Données Produits
Données comportementales
Tableaux de bord
Statistiques
De base
Nb pages par session
40%
36.3%
35%
32340
30030
27720
30%
25410
25%
Percent of obs
Gratuites et
disponibles
Sessionage
23100
20790
20%
18480
17.2%
16170
15%
13860
11.5%
11550
10.9%
10%
9240
6.4%
4.2%
5%
5.1%
3.1%
6930
4620
2.8%
1.6%
2310
0%
0
1
2
3
4
5
6
7
8
9
10
Graphiques
Fichier de
sessions
Codage
Fichier Codé
adresse IP Identificateur Date/heure Méthode URL code résultat Taille
Systè
Système RàPC pour la pré
prévision à partir de navigations
Visualisation des donné
données de navigations
Navigation codé
codée :
Cas cible =
(problème,
solution =?)
Prévision
solution :
But final de l’utilisateur du site :
« achat, non achat »
Fichier Codé
CONTROLEUR
lancement
Sousc ription Reserve
Fic he technique Auto
Fiche Technique pers o
Fiche technique Res erve
Pieces justificatives
Fiche technique Auto
Produit travaux
Les differents credits
Loi Neiertz
Comprendre le taux du c redit
Produit travaux
Produit travaux
Dialoguez avec nous
Rembourcement antic ipé
Sousc ription Auto
17
(3)
Apprentissage
Apprentissage
Produit traveaux
1
Dialoguez avec nous
Info Credit
Analyse
Les delais pour obtenir le credit
Mot de pass e oublié
17
La foire aux questions
Analyser votre capacite d'emprunt
Analyser votre capacite d'emprunt
Les infos pour obtenir votre credit
La foire aux questions
Qui somme nous
Analyser votre capacite d'emprunt
Les differents credits
Loi Neiertz
Pieces justificatives
Acc ueil
Pieces justificatives
Pieces justificatives
Comprendre le taux du credit
Contactez nous
Entree
lancement
Prédiction
Ajout de cas
Moteur Rà
RàPC1
CAH
Sous cription Aiguillage
Souscription Pers o
Prédiction
Maintenance
e-SOM : SOM Évolutive
Moteur Rà
RàPC2
(1)
Recherche
Recherche
Base de cas
Réutilisation
Réutilisation
(2)
(1)
Recherche
Recherche
Base de
navigations
(3)
Apprentissage
Apprentissage
Réutilisation
Réutilisation
(2)
Contactez nous
Cartes topologiques (SOM) pour le traitement des navigations
Cartographie du site
M-SOM : SOM matricielle
x(0)
Typologie des sessions de navigation
X(t)
Classification et classement
des
navigations
après
modélisation en matrices de
covariance
COVx
Modélisation :
matrice de covariance
M-SOM
Classe
x(t)
Nb pages par session
40%
36.3%
32340
Souscription Reserve
Souscription Aiguillage
Fiche technique Auto
Fiche Technique perso
Fiche technique Reserve
Pieces justificatives
Fiche technique Auto
Loi Neiertz
Comprendre le taux du credit
Produit travaux
Produit t ravaux
Dialoguez avec nous
Rembourcement anticipé
17
Produit traveaux
SOM-ART
30030
Souscription Perso
27720
Produit t ravaux
25410
Souscription Auto
23100
Projection
1
Dialoguez avec nous
Info Credit
Analyse
Les delais pour obtenir le credit
Mot de passe oublié
17
La foire aux questions
Analyser votre capacite d'emprunt
Analyser votre capacite d'e mprunt
Les infos pour obtenir votre credit
La foire aux questions
Qui somme nous
Analyser votre capacite d'e mprunt
Comprendre le taux du credit
Contactez nous
11550
9240
4620
2310
10
Les differents credits
Loi Neiertz
Pieces justificatives
Accueil
Pieces justificatives
Pieces justificatives
Entree
Contactez nous
R
6
5
4
3
2
1
DTW
CAH
M-SOMSOM-ART
x(0)
T
Mélange de
modèles de
Markov
Séquences
de
neurones
Autoroutes
X(t)
Modélisation :
matrice de covariance
COVx
x(t)
(Sessions de
navigations prototype)
Résultats
Résultats
Cartes SOM
A2
A3
A4
A5
A6
A7
A8
A9
A10
Total
A1
1000
0
0
0
0
0
0
0
0
0
1000
A2
0
1000
0
0
0
0
0
0
0
0
1000
A3
0
0
1000
0
0
0
0
0
0
0
1000
A4
0
0
0
1000
0
0
0
0
0
0
1000
A5
0
0
0
0
1000
0
0
0
0
0
1000
A6
0
0
0
0
0
1000
0
0
0
0
1000
A7
0
0
0
33
0
10
923
0
34
0
1000
A8
0
0
0
0
0
0
0
1000
0
0
1000
A9
0
00
0
0
0
0
0
0
1000
0
1000
A10
0
0
0
0
0
0
0
0
0
1000
1000
Reconnaissance des sessions par rapport aux classes
de sessions prototypes
1 × M-SOM
× SOMTemp
× SOTPAR
× SOM
Espace ROC : Comparaison
des ré
résultats de classement
0
1 - Spé
Spécificité
cificité
1
160
140
- 3 6 0 0 0 0
120
100
- 3 6 5 0 0 0
SOM
Kohonen
HSOM
80
- 3 7 0 0 0 0
Nombre de neurones
328
SOMSOM-ART
1026
Version Evolutive
40
20
- 3 8 0 0 0 0
7
8
N o m
9
b r e
1 0
d e
1 1
C la s s e s
1 2
1 3
K
Critère d’informations sur le calcul du
nombre de classes de sessions
Résultat global aprè
après
0
200
400
600
800
1000
1260
partition de la base
Comparaison du nombre de neurones
dans SOM
85,04%
Rappel
avec MBC
Clic
60
- 3 7 5 0 0 0
Rappel
sans MBC
Comparaison de la pré
précision
180
- 3 5 5 0 0 0
100
80
60
40
20
0
Comparaison de SOM et SOMSOM-ART
200
- 3 5 0 0 0 0
AIC
Systè
Système RàPC
Comparaison du rappel
1
A1
Sensibilité
é
Sensibilit
Autoroutes
A IC ( K )
Classification et classement
des navigations ayant les
propriétés de stabilité et de
plasticité
Classe
M-SOM_ART
17
9
15
1.6%
82.37%
100
80
60
40
20
0
Précision
sans MBC
Précision
avec MBC
Clic
17
8
13
6
15
5
13
4
9
3
11
2
11
2.8%
7
0
1
7
5.1%
3.1%
0%
SOM évolutive pour le classement et la classification des
navigations.
Propriétés de plasticité et de stabilité fournies par le réseau
ART pour une utilisation à long terme du réseau.
9
4.2%
5%
6930
5
6.4%
7
10.9%
3
16170
13860
11.5%
10%
5
17.2%
15%
Les differents credits
3
Echantiollonage
20790
18480
1
Percent of obs
25%
20%
Rappell(%)
30%
P ré c is io n (% )
35%
Fichier de
sessions
0