slides - Raphaël Fournier

Transcription

slides - Raphaël Fournier
Détection et analyse
de l’activité pédophile
dans les ensembles de requêtes P2P
Raphaël Fournier-S’niehotta
Journées ResCom
29 novembre 2012
Contexte Requêtes Utilisateurs Conclusion
Plan
1
Contexte
2
Requêtes pédophiles
3
Utilisateurs pédophiles
4
Conclusion
Raphaël Fournier-S’niehotta
Étude de l’activité pédophile dans le P2P
2 / 18
Contexte Requêtes Utilisateurs Conclusion
Plan
1
Contexte
Raphaël Fournier-S’niehotta
Étude de l’activité pédophile dans le P2P
2 / 18
Contexte Requêtes Utilisateurs Conclusion
Grands ensembles de requêtes
Interaction utilisateur-moteur de recherche
Des applications
classiques (amélioration de systèmes)
moins classiques (suivi de la grippe)
Séquence de requêtes : qi = (t, u, k1 , k2 , . . . , kn )
t horodatage
u information sur l’émetteur (adresse IP, port)
(k1 , k2 , . . . , kn ) suite de mots-clefs
Raphaël Fournier-S’niehotta
Étude de l’activité pédophile dans le P2P
3 / 18
Contexte Requêtes Utilisateurs Conclusion
L’activité pédophile dans le P2P
Problème important
Victimes directes
Danger pour les utilisateurs non pédophiles
Impact sur la régulation de l’Internet
Très peu de connaissances
Raphaël Fournier-S’niehotta
Étude de l’activité pédophile dans le P2P
4 / 18
Contexte Requêtes Utilisateurs Conclusion
Objectifs
Améliorer la connaissance
de l’activité pédophile dans le P2P
Détection
Élaborer une méthodologie générale
Créer un outil de détection automatisé
Analyse
Dénombrer rigoureusement les requêtes
Étudier les utilisateurs
Raphaël Fournier-S’niehotta
Étude de l’activité pédophile dans le P2P
5 / 18
Contexte Requêtes Utilisateurs Conclusion
Problématiques
Collecte de données adaptées
taille, dynamicité, protocoles peu documentés
Outil de détection automatique
activité cachée, langues multiples
Inférence statistique rigoureuse
faible quantité de requêtes pédophiles
Raphaël Fournier-S’niehotta
Étude de l’activité pédophile dans le P2P
6 / 18
Contexte Requêtes Utilisateurs Conclusion
Données
eDonkey (eMule, MLDonkey, Shareaza)
2007
09-12
2009
Durée
10 semaines
147 semaines
28 semaines
Nb. requêtes
107 226 021
1 290 377 956
205 228 820
Nb. IP
23 892 531
82 264 897
24 413 195
Normalisation et anonymisation des données brutes
F. A IDOUNI , M. L ATAPY, AND C.M AGNIEN . Ten weeks in the life of an edonkey server. Proceedings of
HotP2P’09, 2009.
Raphaël Fournier-S’niehotta
Étude de l’activité pédophile dans le P2P
7 / 18
Contexte Requêtes Utilisateurs Conclusion
Conception Validation Estimations
Plan
2
Requêtes pédophiles
Conception de l’outil
Validation de l’outil
Estimation de la fraction de requêtes pédophiles
Raphaël Fournier-S’niehotta
Étude de l’activité pédophile dans le P2P
7 / 18
Contexte Requêtes Utilisateurs Conclusion
Conception Validation Estimations
Conception de l’outil
4 types de requêtes pédophiles
requête
contient
explicit ?
contient
child
et sex ?
contient
familyparents et
familychild et sex ?
contient agesuffix
avec age<17 et
( sex ou child ) ?
étiquetée pédophile
raygold little girl
porno infantil
incest mom son video
12yo fuck video
Raphaël Fournier-S’niehotta
Étude de l’activité pédophile dans le P2P
8 / 18
Contexte Requêtes Utilisateurs Conclusion
Conception Validation Estimations
Évaluation de la qualité
Faux positifs
“sexy daddy destinys child”
contient “sexy”, “daddy” et “child” −→ étiquetée pédophile
probablement une recherche liée à la musique
Faux négatifs
“pjk 12yo” −→ étiquetée non pédophile
contient un marqueur pédophile non connu
Comment estimer ces taux de faux positifs et faux négatifs ?
Raphaël Fournier-S’niehotta
Étude de l’activité pédophile dans le P2P
9 / 18
Contexte Requêtes Utilisateurs Conclusion
Conception Validation Estimations
Validation – Sondage
21 experts volontaires (Europol, forces de l’ordre, ONG)
3 000 requêtes choisies aléatoirement dont :
1 000 étiquetées pédophiles
1 000 étiquetées non pédophiles
1 000 voisines (soumises dans les 2h avant ou après une
requête étiquetée pédophile, par la même adresse IP)
pédo
...
1174
...
prob.
pédo
...
111
...
je ne
sais pas
...
20
...
prob.
pas
...
64
...
Raphaël Fournier-S’niehotta
pas
pédo
...
789
...
total
...
2158
...
pertinence
...
99.1
...
Étude de l’activité pédophile dans le P2P
10 / 18
Contexte Requêtes Utilisateurs Conclusion
Conception Validation Estimations
Résultats de la validation
correct : 75,5%
requête
pédophile
outil
erroné : 24,5%
correct : 98,61%
toutes les
requêtes
outil
pédophile
erroné : 1,39%
Raphaël Fournier-S’niehotta
Étude de l’activité pédophile dans le P2P
11 / 18
Contexte Requêtes Utilisateurs Conclusion
Conception Validation Estimations
Fraction de requêtes pédophiles
fraction of paedophile queries
0.0025
0.002
0.0015
0.001
0.0005
2007
2009
0
0
5
10
15
20
measurement duration (weeks)
25
30
Résultat
détection : légèrement au-dessus de 1,9 pour 1 000
après correction : 2,5 requêtes pour 1 000 sont pédophiles
1 requête pédophile toutes les 33 secondes environ
Raphaël Fournier-S’niehotta
Étude de l’activité pédophile dans le P2P
12 / 18
Contexte Requêtes Utilisateurs Conclusion
Distinguer Compter
Plan
3
Utilisateurs pédophiles
Distinguer des utilisateurs différents
Compter les utilisateurs pédophiles
Raphaël Fournier-S’niehotta
Étude de l’activité pédophile dans le P2P
12 / 18
Contexte Requêtes Utilisateurs Conclusion
Distinguer Compter
Notion d’utilisateur
Hypothèse classique :
utilisateur ∼ adresse IP
Problèmes
traduction d’adresse (NAT)
renouvellement d’adresses
plusieurs utilisateurs par ordinateur
plusieurs ordinateurs par utilisateur
Améliorations
utilisateur ∼ adresse IP + port de connexion
durée de la mesure
sessions temporelles
Raphaël Fournier-S’niehotta
Étude de l’activité pédophile dans le P2P
13 / 18
Contexte Requêtes Utilisateurs Conclusion
Distinguer Compter
Notion d’utilisateur : IP vs (IP,port)
fraction of paedophile users
0.0045
0.004
0.0035
0.003
0.0025
0.002
0.0015
0.001
2007, (IP,port)
2007, IP
2009, IP
0.0005
0
0
2
4
6
8
10
time (weeks)
hypothèse : un utilisateur est pédophile s’il a fait une
requête pédophile
pollution : toutes les adresses IP vues comme pédophiles,
après un certain temps
convergence quand on prend l’hypothèse (IP, port)
Raphaël Fournier-S’niehotta
Étude de l’activité pédophile dans le P2P
14 / 18
Contexte Requêtes Utilisateurs Conclusion
Distinguer Compter
Notion d’utilisateur : sessions temporelles
t1
t2 t3
t5 t6
t4
t
fraction of paedophile sessions
session
session
2007, (IP,port)
2007, IP
2009, IP
0.0035
0.003
0.0025
0.002
0.0015
0.0024
0.001
0.002
0.0005
0
0.25
0.5
0
0
2
4
Raphaël Fournier-S’niehotta
6
δ (hours)
8
10
12
Étude de l’activité pédophile dans le P2P
15 / 18
Contexte Requêtes Utilisateurs Conclusion
Distinguer Compter
Fraction d’utilisateurs pédophiles
faux positifs et négatifs sur les utilisateurs
p(u ∈ U + | u ∈ V (n, 0)) = 1 − (1 − f 0− )n
p(u ∈ U − | u ∈ V (n, k )) = (f 0+ )k (1 − f 0− )n−k
Résultat
Fraction d’utilisateurs pédophiles proche de 0,22%
Raphaël Fournier-S’niehotta
Étude de l’activité pédophile dans le P2P
16 / 18
Contexte Requêtes Utilisateurs Conclusion
Plan
4
Conclusion
Raphaël Fournier-S’niehotta
Étude de l’activité pédophile dans le P2P
16 / 18
Contexte Requêtes Utilisateurs Conclusion
Conclusion
Un cas de détection d’une thématique rare
dans de grands ensembles de requêtes
Contributions
Outil de détection de requêtes pédophiles
Grand ensemble de requêtes pédophiles
Estimation de la fraction de requêtes pédophiles
Étude de la notion d’utilisateur
Estimation de la fraction de requêtes pédophiles
Contributions non présentées
Dynamique temporelle de l’activité pédophile
Comparaison avec le réseau P2P KAD
Raphaël Fournier-S’niehotta
Étude de l’activité pédophile dans le P2P
17 / 18
Contexte Requêtes Utilisateurs Conclusion
Perspectives
Amélioration de l’outil de détection
requêtes précédente/suivante
langues, ordre des mots, catégories
apprentissage
Analyse des utilisateurs
seuil différent pour être considéré comme pédophile
confrontation avec d’autres systèmes
recherche de communautés
étude détaillée des séquences de requêtes
Raphaël Fournier-S’niehotta
Étude de l’activité pédophile dans le P2P
18 / 18
Dynamique
Évolution sur une longue période
fraction de requêtes
(en %)
nombre de requêtes
(millions)
0.6
toutes req.
12
10
8
6
4
2
requêtes pédo.
0.5
0.4
0.3
0.2
0.1
07
01
2−
1
20
07
2−
1
20
01
1−
07
1−
1
20
1
20
01
0−
1
20
07
0−
9−
1
20
0
20
01
2−
07
01
1−
1
20
1
20
07
1−
0−
1
20
01
07
0−
1
20
1
20
9−
0
20
temps (semaine)
temps (semaine)
trafic global stable sur 3 ans
trafic pédophile en forte croissance
augmentation du nombre d’utilisateurs pédophiles
Raphaël Fournier-S’niehotta
Étude de l’activité pédophile dans le P2P
20 / 18
Dynamique
Dynamique journalière
BR+AR
FR
2
1,5
1
0,5
0,9
fraction moyenne des requêtes
(en %)
fraction moyenne d’adresses IP
(en %)
2,5
requêtes pédo.
requêtes porn.
0,8
0,7
0,6
0,5
0,4
0,3
0
0
2
4
6
8 10 12 14 16 18 20 22
heure de la journée
0
2
4
6
8 10 12 14 16 18 20 22
heure de la journée
effet jour/nuit du trafic
pic de fraction de requêtes pédophiles vers 6 heures
différent pour les requêtes pornographiques
Raphaël Fournier-S’niehotta
Étude de l’activité pédophile dans le P2P
21 / 18
Dynamique
KAD network
Completely distributed protocol of clients
No server for file indexing
Some peers are in charge of some files and keywords
Principle:
Precise and targeted injection of peers into the network to
control files or keywords
Peers catch queries and control replies
Applications:
Which files are published for a given keyword? Which
peers share them ?
Eclipse : prevent peers from accessing content
Raphaël Fournier-S’niehotta
Étude de l’activité pédophile dans le P2P
22 / 18
Dynamique
Geo-location: statistics
country
IT
ES
FR
BR
IL
DE
KR
US
PL
AR
CN
PT
IE
TW
BE
CH
GB
NL
CA
SI
MX
RU
AT
# queries
19569361
8881405
7583815
2795090
2139697
2093106
1386799
1053183
975170
810466
635392
513327
511185
417893
402565
320054
319386
243646
241460
239572
210504
200958
184248
# paedo
15426
5177
8059
4849
2618
11238
336
6184
1178
1465
337
434
54
138
646
1710
1698
1131
1233
167
1098
2712
977
ratio
0.08 %
0.06 %
0.11 %
0.17 %
0.12 %
0.54 %
0.02 %
0.59 %
0.12 %
0.18 %
0.05 %
0.08 %
0.01 %
0.03 %
0.16 %
0.53 %
0.53 %
0.46 %
0.51 %
0.07 %
0.52 %
1.35 %
0.53 %
Raphaël Fournier-S’niehotta
Biased by:
language knowledge
decoding problems
Étude de l’activité pédophile dans le P2P
23 / 18
Dynamique
Geo-location: maps
# queries
Raphaël Fournier-S’niehotta
Étude de l’activité pédophile dans le P2P
24 / 18
Dynamique
Geo-location: maps
ratio # paedophile queries / # queries
Raphaël Fournier-S’niehotta
Étude de l’activité pédophile dans le P2P
24 / 18
Dynamique
Ages
1
0.9
0.8
0.7
0.6
0.5
0.4
0.3
0.2
queries
filenames
0.1
0
2
4
6
8
10
12
14
16
18
20
x : ages xyo
y : fraction of occurrences with age ≤ x
≤ 10 years old : 50% (queries) et 30% (files)
≤ 5 years old : 15% (queries) et 7% (files)
Raphaël Fournier-S’niehotta
Étude de l’activité pédophile dans le P2P
25 / 18