slides - Raphaël Fournier

Transcription

slides - Raphaël Fournier
Scientific openness with sensitive data
De l’ouverture des données scientifiques sensibles
Raphaël Fournier-S’niehotta
Journée SoData!, IGN
14 mars 2013
Introduction Données Résultats Analyse
2 / 15
Contexte
équipe ComplexNetworks : grands graphes de terrain et
réseaux sociaux, mesure de l’Internet (carte)
compétences en collecte de données
projets MAPE (ANR) et MAPAP (CE) :
Measurements and Analysis of P2P Activity against
Paedophile content
Antipaedo http://antipaedo.lip6.fr
sujet sensible
Raphaël Fournier-S’niehotta
Scientific openness with sensitive data
Introduction Données Résultats Analyse
3 / 15
Contexte (suite)
L’activité pédophile dans le pair-à-pair (P2P)
Victimes directes
Danger pour les utilisateurs non pédophiles
Impact sur la régulation de l’Internet
Très peu de connaissances
Objectifs
Quantifier les requêtes et les utilisateurs
Étudier l’évolution de l’activité
Comparer différents réseaux
Améliorer significativement les connaissances
sur l’activité pédophile dans le P2P
Raphaël Fournier-S’niehotta
Scientific openness with sensitive data
Introduction Données Résultats Analyse
4 / 15
Réseaux P2P
des millions d’utilisateurs
utilisateur
mots-clefs
fichier(s)
serveur
−→
←−
−→
←−
Raphaël Fournier-S’niehotta
liste de fichiers
fournisseur(s)
Scientific openness with sensitive data
Introduction Données Résultats Analyse
5 / 15
Données
2 collectes en continu sur eDonkey :
2007 10 semaines, 100 millions de requêtes, 24 millions d’IP
2009 147 semaines, 1,3 milliard de requêtes, 82 millions d’IP
(géolocalisées)
1 collecte pour étudier KAD [1] :
KAD 10 jours, ∼ 250 000 requêtes
ed2kFR 60 jours, ∼ 240 000 requêtes
ed2kUA 60 jours, ∼ 170 000 requêtes
Contient des informations sensibles
T. C HOLEZ , I. C HRISMENT, AND O. F ESTOR . Monitoring and Controlling Content Access in KAD. ICC 2010.
Raphaël Fournier-S’niehotta
Scientific openness with sensitive data
Introduction Données Résultats Analyse
6 / 15
Des données sensibles
12/03-02:48:08
12/03-02:48:09
12/03-02:48:09
12/03-02:48:09
12/03-02:48:09
12/03-02:48:09
12/03-02:48:09
12/03-02:48:09
12/03-02:48:10
12/03-02:48:10
12/03-02:48:10
12/03-02:48:10
once upon a time s02e16
devenir male dominant
la historia sin fin
mario party 9
gangster squad
naruto
desaparecidos fiesta loca
secret life american vostfr
pthc 12yo
the mentalist s01e19
ich mich nach deiner liebe soundtrack
michael jackson bad man in the mirror
28/02-01:25:02
28/02-01:25:14
3/03-18:50:29
7/04-13:22:49
pierre durand cancer
college emile fournier de badonvillier
julie fournier
lilian moreno 06 17 79 18 35
Raphaël Fournier-S’niehotta
<BR><Rio De Janeiro>
<AR><Buenos Aires>
<DE><Enger>
<PT><Barcelos>
<FR><Talence>
<FR><Talence>
<IT><Rovigo>
<FR><Toulouse>
Scientific openness with sensitive data
Introduction Données Résultats Analyse
7 / 15
Ouverture
Préoccupation dès le début du projet
Motivation
Fournir les données à la communauté scientifique
Reproductibilité des résultats
Problèmes
Satisfaire les exigences légales
Ne pas divulguer d’informations personnelles
Trouver un compromis
entre richesse des données et anonymat
Raphaël Fournier-S’niehotta
Scientific openness with sensitive data
Introduction Données Résultats Analyse
8 / 15
Anonymisation : procédure
Temps
valeur relative plutôt qu’absolue
Adresses IP
« seulement » 232 possibilités
fonction de hachage connue insuffisante
anonymisation à la volée par des entiers
lenteur et demande en calculs
haut niveau d’anonymisation
usage ultérieur du jeu de données immédiat
Raphaël Fournier-S’niehotta
Scientific openness with sensitive data
Introduction Données Résultats Analyse
9 / 15
Anonymisation : procédure (suite)
Requêtes
distinguer le général du particulier (sensible)
peu de requêtes
ou beaucoup de requêtes du même utilisateur
seuil de 50 IP distinctes
nombres : téléphone et cartes de crédit, mais aussi âges
Raphaël Fournier-S’niehotta
Scientific openness with sensitive data
Introduction Données Résultats Analyse
10 / 15
Disponibilité
Complètement accessibles
méta données
échantillons
outil (algorithme de détection)
format standard, fichier texte formaté
Sur demande
totalité des jeux de données
Raphaël Fournier-S’niehotta
Scientific openness with sensitive data
Introduction Données Résultats Analyse
11 / 15
Résultats
Mise au point d’un outil de détection de requêtes pédophiles
conçu en collaboration avec forces de l’ordre
validation
connaissance des taux d’erreurs (FP/FN)
précision 98,6 %
rappel 76%
Statistiques globales
eDonkey [2]
environ 2,5 requêtes pédophiles pour 1 000 (en 2009)
1 requête pédophile toutes les 33 secondes environ
environ 2,2 utilisateurs pour 1 000 sont pédophiles
environ 2 fois moins sur KAD
M. L ATAPY, C. M AGNIEN , AND R. F OURNIER . Quantifying paedophile activity in a large P2P system.
Information Processing and Management, 2012.
Raphaël Fournier-S’niehotta
Scientific openness with sensitive data
Introduction Données Résultats Analyse
12 / 15
Évolution temporelle
fraction de requêtes
(en %)
0,6
requêtes pédo.
0,5
0,4
0,3
0,2
0,1
7
−0
12
20
1
−0
12
20
7
−0
11
20
1
−0
11
20
7
−0
10
20
1
−0
10
20
7
−0
09
20
temps (semaine)
Trafic global stable sur 3 ans
Trafic pédophile en forte croissance
Raphaël Fournier-S’niehotta
Scientific openness with sensitive data
Introduction Données Résultats Analyse
13 / 15
fraction moyenne des requêtes
(en %)
Intégration sociale
0,9
requêtes pédo.
0,8
0,7
0,6
0,5
0,4
0,3
0 2 4 6 8 10 12 14 16 18 20 22
heure de la journée
Effet jour/nuit
Pic de fraction de requêtes pédophiles vers 6 heures
Différent pour les requêtes pornographiques
Raphaël Fournier-S’niehotta
Scientific openness with sensitive data
Introduction Données Résultats Analyse
13 / 15
fraction moyenne des requêtes
(en %)
Intégration sociale
0,9
requêtes pédo.
requêtes porn.
0,8
0,7
0,6
0,5
0,4
0,3
0 2 4 6 8 10 12 14 16 18 20 22
heure de la journée
Effet jour/nuit
Pic de fraction de requêtes pédophiles vers 6 heures
Différent pour les requêtes pornographiques
Raphaël Fournier-S’niehotta
Scientific openness with sensitive data
Introduction Données Résultats Analyse
14 / 15
Ouverture des données
Puissance de ce type d’analyse (Transaction-Log Analysis)
avancées significatives
contribution qualitative avec une approche quantitative
utile dans de nombreux autres contextes
Mais :
responsabilité / éthique
Google Flu ([1])
Étude sur Twitter ([2])
erreurs
AOL
notre outil
J. G INSBERG , M. H. M OHEBBI , R. S. PATEL , L. B RAMMER , M. S. S MOLINSKI , AND L. B RILLIANT. Detecting
influenza epidemics using search engine query data. Nature, 457:1012–1014, 2009.
A. S ADILEK , H. K AUTZ , AND V. S ILENZIO. Predicting disease transmission from geo-tagged micro-blog data.
AAAI Conference on Artificial Intelligence, 2012.
Raphaël Fournier-S’niehotta
Scientific openness with sensitive data
Introduction Données Résultats Analyse
15 / 15
Merci.
[email protected]
Raphaël Fournier-S’niehotta
Scientific openness with sensitive data
Introduction Données Résultats Analyse
16 / 15
Géolocalisation
pays
IT
ES
FR
BR
IL
DE
KR
US
PL
AR
CN
PT
IE
TW
BE
CH
GB
NL
CA
SI
MX
RU
AT
# requêtes
19569361
8881405
7583815
2795090
2139697
2093106
1386799
1053183
975170
810466
635392
513327
511185
417893
402565
320054
319386
243646
241460
239572
210504
200958
184248
# pédo.
15426
5177
8059
4849
2618
11238
336
6184
1178
1465
337
434
54
138
646
1710
1698
1131
1233
167
1098
2712
977
fraction
0.08 %
0.06 %
0.11 %
0.17 %
0.12 %
0.54 %
0.02 %
0.59 %
0.12 %
0.18 %
0.05 %
0.08 %
0.01 %
0.03 %
0.16 %
0.53 %
0.53 %
0.46 %
0.51 %
0.07 %
0.52 %
1.35 %
0.53 %
Raphaël Fournier-S’niehotta
Problèmes :
langues
encodage
VPN
Scientific openness with sensitive data
Introduction Données Résultats Analyse
17 / 15
Géolocalisation
total des requêtes
Raphaël Fournier-S’niehotta
Scientific openness with sensitive data
Introduction Données Résultats Analyse
17 / 15
Géolocalisation
fraction de requêtes pédophiles
Raphaël Fournier-S’niehotta
Scientific openness with sensitive data
Introduction Données Résultats Analyse
Tool design Tool assessment Identifier Quantifier Long-term
Tool design
4 categories of paedophile queries
query
matches
explicit ?
matches
child
and sex ?
matches
familyparents and
familychild and sex ?
matches agesuffix
with age<17 and
( sex or child )?
tag as paedophile
raygold little girl
porno infantil
incest mom son video
12yo fuck video
Raphaël Fournier-S’niehotta
Scientific openness with sensitive data
Introduction Données Résultats Analyse
Tool design Tool assessment Identifier Quantifier Long-term
Quality
False positive
“sexy daddy destinys child”
contains “sexy”, “daddy” and “child”
but most likely a music-related query
False negative
“pjk 12yo”
contains paedophile keywords that we don’t search for
How to estimate false positive and false negative rates?
Raphaël Fournier-S’niehotta
Scientific openness with sensitive data
Introduction Données Résultats Analyse
Tool design Tool assessment Identifier Quantifier Long-term
Tool assessment – Survey
set of 21 volunteering experts (Europol, national
authorities, NGOs)
set of 3,000 randomly selected queries:
paedophile
not paedophile
neighbours (submitted within the 2 previous or next hours
of a paedophile query by the same user)
tag queries as paedophile, probably paedophile, probably
not paedophile, not paedophile or I don’t know
pédo
...
1174
...
prob.
pédo
...
111
...
je ne
sais pas
...
20
...
prob.
pas
...
64
...
Raphaël Fournier-S’niehotta
pas
pédo
...
789
...
total
...
2158
...
pertinence
...
99.1
...
Scientific openness with sensitive data
Introduction Données Résultats Analyse
Tool design Tool assessment Identifier Quantifier Long-term
Assessment results
Limited filter precision
False negatives
False positives
correct: 75.5%
paedophile
queries
our tool
wrong: 24.5%
correct: 98.61%
all
queries
our tool
paedophile
wrong: 1.39%
Raphaël Fournier-S’niehotta
Scientific openness with sensitive data
Introduction Données Résultats Analyse
Tool design Tool assessment Identifier Quantifier Long-term
Notion d’utilisateur
Approximation possible :
utilisateur ∼ adresse IP
Problèmes
Traduction d’adresse (NAT)
Renouvellement d’adresses
Plusieurs utilisateurs par ordinateur
Plusieurs ordinateurs par utilisateur
Raphaël Fournier-S’niehotta
Scientific openness with sensitive data
Introduction Données Résultats Analyse
Tool design Tool assessment Identifier Quantifier Long-term
Notion d’utilisateur
Utilisateur pédophile
Un utilisateur est pédophile s’il a fait une requête pédophile
Pollution : toutes les adresses IP vues comme pédophiles,
après un certain temps
3 approches :
utilisateur ∼ adresse IP + port de connexion
sessions temporelles
durée de la mesure
Raphaël Fournier-S’niehotta
Scientific openness with sensitive data
Introduction Données Résultats Analyse
Tool design Tool assessment Identifier Quantifier Long-term
fraction d’utilisateurs
détéctés comme pédophiles (en %)
Notion d’utilisateur : IP vs (IP,port)
0,45
0,4
0,35
0,3
0,25
0,2
0,15
0,1
2007, IP
2009, IP
0,05
0
0
2
4
6
temps (semaines)
8
10
(IP, port) permet d’éviter la pollution
Raphaël Fournier-S’niehotta
Scientific openness with sensitive data
Introduction Données Résultats Analyse
Tool design Tool assessment Identifier Quantifier Long-term
fraction d’utilisateurs
détéctés comme pédophiles (en %)
Notion d’utilisateur : IP vs (IP,port)
0,45
0,4
0,35
0,3
0,25
0,2
0,15
0,1
2007, (IP, port)
2007, IP
2009, IP
0,05
0
0
2
4
6
temps (semaines)
8
10
(IP, port) permet d’éviter la pollution
Raphaël Fournier-S’niehotta
Scientific openness with sensitive data
Introduction Données Résultats Analyse
Tool design Tool assessment Identifier Quantifier Long-term
Notion d’utilisateur : sessions temporelles
t1
t2 t3
t4
t5 t6
t
session
Raphaël Fournier-S’niehotta
session
Scientific openness with sensitive data
Introduction Données Résultats Analyse
Tool design Tool assessment Identifier Quantifier Long-term
Notion d’utilisateur : sessions temporelles
fraction de sessions
détéctées comme pédophiles
0,3
0,25
0,2
0,15
0,1
2007, (IP,port)
2007, IP
2009, IP
0,05
0
0
2
4
Raphaël Fournier-S’niehotta
6
8
δ (heures)
10
12
Scientific openness with sensitive data
Introduction Données Résultats Analyse
Tool design Tool assessment Identifier Quantifier Long-term
Fraction d’utilisateurs pédophiles
faux positifs et négatifs sur les utilisateurs
p(u ∈ U + | u ∈ V (n, 0)) = 1 − (1 − f 0− )n
p(u ∈ U − | u ∈ V (n, k )) = (f 0+ )k (1 − f 0− )n−k
U+ , U− : ensemble des utilisateurs pédophiles/non pédophiles
V+ , V− : ensemble des utilisateurs détectés comme
pédophiles/non pédophiles
n : nombre de requêtes d’un utilisateur
k : nombre de requêtes détectées comme pédophiles
|U + ∩V + |
|D|
=
PN
n=1
Pn
k =1 (1
)|
− (f 0+ )k (1 − f 0− )n−k ) |V (n,k
|D|
Raphaël Fournier-S’niehotta
Scientific openness with sensitive data
Introduction Données Résultats Analyse
Tool design Tool assessment Identifier Quantifier Long-term
Fraction d’utilisateurs pédophiles
Résultat
Fraction d’utilisateurs pédophiles proche de 0,22% [2007]
1 utilisateur pédophile sur 450 environ
M ATTHIEU L ATAPY, C LÉMENCE M AGNIEN , AND R APHAËL F OURNIER . Quantifying paedophile queries in a
large P2P system. In IEEE International Conference on Computer Communications (INFOCOM)
Mini-Conference, 2011.
M ATTHIEU L ATAPY, C LÉMENCE M AGNIEN , AND R APHAËL F OURNIER . Quantifying paedophile activity in a
large P2P system. Information Processing and Management, In press, 2012.
Raphaël Fournier-S’niehotta
Scientific openness with sensitive data
Introduction Données Résultats Analyse
Tool design Tool assessment Identifier Quantifier Long-term
Global traffic on server
all
queries (millions)
12
10
8
6
4
2
20
20
20
20
20
20
1
−0
12
7
−0
11
1
−0
11
7
−0
10
1
−0
10
7
−0
09
week
Stability of global traffic over 3 years
Raphaël Fournier-S’niehotta
Scientific openness with sensitive data
Introduction Données Résultats Analyse
Tool design Tool assessment Identifier Quantifier Long-term
Fraction of paedophile queries
fraction of queries (in %)
0.6
paedophile queries
0.5
0.4
0.3
0.2
0.1
20
20
20
20
20
20
20
7
−0
12
1
−0
12
7
−0
11
1
−0
11
7
−0
10
1
−0
10
7
−0
09
week
Fraction of paedophile queries strongly increasing
Raphaël Fournier-S’niehotta
Scientific openness with sensitive data
Introduction Données Résultats Analyse
Tool design Tool assessment Identifier Quantifier Long-term
Fraction of paedophile users
paedo. IPs
fraction of IP addresses (in %)
0.9
0.8
0.7
0.6
0.5
0.4
0.3
0.2
20
20
20
20
20
20
20
7
−0
12
1
−0
12
7
−0
11
1
−0
11
7
−0
10
1
−0
10
7
−0
09
week
Fraction of paedophile users also increasing
Raphaël Fournier-S’niehotta
Scientific openness with sensitive data
Introduction Données Résultats Analyse
Tool design Tool assessment Identifier Quantifier Long-term
Daily traffic
90000
all queries
average number of queries
80000
70000
60000
50000
40000
30000
20000
10000
0
0
2
4
6
8
10 12 14 16 18 20 22
hour
Circadian cycle (day/night effect)
Raphaël Fournier-S’niehotta
Scientific openness with sensitive data
Introduction Données Résultats Analyse
Tool design Tool assessment Identifier Quantifier Long-term
Fraction of paedophile activity
average fraction of queries
(in %)
0.9
paedo. queries
0.8
0.7
0.6
0.5
0.4
0.3
0
2
4
6
8
10 12 14 16 18 20 22
hour
Fraction of paedophile queries peaks at 6 AM
Raphaël Fournier-S’niehotta
Scientific openness with sensitive data
Introduction Données Résultats Analyse
Tool design Tool assessment Identifier Quantifier Long-term
Pornography vs paedophile activity
average fraction of queries
(in %)
0.9
paedo. queries.
porn. queries
0.8
0.7
0.6
0.5
0.4
0.3
0
2
4
6
8
10 12 14 16 18 20 22
hour
Paedopornagraphy and traditional pornography differ
Raphaël Fournier-S’niehotta
Scientific openness with sensitive data
Introduction Données Résultats Analyse
Tool design Tool assessment Identifier Quantifier Long-term
Evolution of paedophile activity
Results
Important growth of paedophile activity
between 2009 and 2012
Fraction of paedophile queries peaks at 6 AM
Qualitative contribution with quantitative approach
Raphaël Fournier-S’niehotta
Scientific openness with sensitive data

Documents pareils

slides - Raphaël Fournier

slides - Raphaël Fournier Conclusion Un cas de détection d’une thématique rare dans de grands ensembles de requêtes

Plus en détail