Apprentissage en temps réel pour la collecte d`information dans les

Transcription

Apprentissage en temps réel pour la collecte d`information dans les
Apprentissage en temps réel pour la collecte
d’information dans les réseaux sociaux
Preuve de convergence
Thibault Gisselbrecht* , Ludovic Denoyer** , Patrick Gallinari** ,
Sylvain Lamprier**
Sorbonne Universités, UPMC Univ Paris 06, UMR 7606, LIP6, F-75005, Paris,
France
CNRS, UMR 7606, LIP6, F-75005, Paris, France
* [email protected] ** pré[email protected]
RÉSUMÉ. Ce document constitue la preuve détaillée de la borne supérieur de l’espérance du regret cumulé pour l’algorithme CUCBV proposé dans l’article intitulé: "Apprentissage en temps
réel pour la collecte d’information dans les réseaux sociaux"
ABSTRACT. This supplementary content aims at proving the upper-bound of the cumulative regret
of the CUCBV algorithm we proposed in the main paper entitled "Apprentissage en temps réel
pour la collecte d’information dans les réseaux sociaux"
MOTS-CLÉS :
Apprentissage statistique, réseaux sociaux, bandit manchot
KEYWORDS:
Machine Learning, Social Network, Multi-armed Bandit
2
Notations :
– K l’ensemble complet des K actions possibles ;
– µi l’espérance de la récompense associé à l’action i ;
– On ordonne les actions de la façon suivantes ∀i, µi ≥ µi+1 ;
– K∗ est l’ensemble des k actions ayant la plus forte espérance ;
– ∆i est défini comme la différence entre µ∗ , la moyenne des espérances des actions dans K∗ , et µi : ∆i = µ∗ − µi ;
– δi correspond à la différence entre µ∗ , la plus faible espérance dans K∗ , et µi :
δi = µ∗ − µi ;
–µ
bi,s est la moyenne empirique associé à l’action i après qu’elle ait été choisie s
fois ;
– τi(t) est le nombre de fois qu’une action i a été choisie dans les t premiers pas
de temps.
Nous considérons également que toutes les actions sont connues et faisons l’hypothèse
que µk > µk+1 .
Première partie de la preuve :
En utilisant l’ordonnancement des actions selon leur espérance et sous une politique π on a :
Eπ [Rn ] = Eπ [
n P
k
P
P
(
µj −
µi )]
t=1 j=1
= Eπ [n
k
P
µj −
k
P
j=1
n P
P
µi ]
t=1 i∈Kt
j=1
= Eπ [n
i∈Kt
µj −
K
P
τi(n) × µi ]
i=1
PK
Indépendamment de l’action choisie, i=1 τi(n) = kn, donc :
PK
Pk µ
Eπ [Rn ] = Eπ [ i=1 (τi(n) j=1 kj − µi )]
d’où :
Eπ [Rn ] =
K
X
Eπ [τi(n) ]∆i
i=1
Dans la suite on remplace la notation Eπ par E pour des raisons de simplicité.
Seconde partie de la preuve :
3
L’étude de la borne supérieure du regret cumulé moyen commence par la séparation des contributions des actions optimales et des actions non optimales :
E[Rn ] =
K
X
E[τi(n) ]∆i =
i=1
k
X
E[τi(n) ]∆i +
i=1
K
X
E[τi(n) ]∆i
i=k+1
Donc, étant donné que l’on ne peut pas choisir une action plusieurs fois dans un
même pas de temps, nous savons que E[τi(n) ] ≤ n d’où :
E[Rn ] ≤ n
k
X
K
X
∆i +
i=1
E[τi(n) ]∆i
i=k+1
Pk
En remarquant aussi que i=1 ∆i = 0, nous pouvons restreindre notre étude à la
contribution des actions non optimales :
E[Rn ] ≤
K
X
E[τi(n) ]∆i
i=k+1
Considérant l’algorithme CUCBV, après T = dK/ke, chaque action est choisie au
moins une fois à cause de l’initialisation des scores à ∞.
q
2
2 ln(t)b
σi,s
+ 3 ln(t)
On note : Gi,s,t = µ
bi,s +
s
s
Donc à chaque pas de temps t, t ≥ dT e on obtient :
∀i ∈ Kt : τi(t−1) > 0, ∃j ∈ K∗ : τj(t−1) > 0 tq Gi,τi(t−1) ,t ≥ Gj,τj(t−1) ,t
Nous étudions maintenant le terme τi(n) :
τi(n) =
n
P
1{i∈Kt }
t=1
n
P
τi(n) ≤ 2 +
1{i∈Kt }
t=1+T
τi(n) ≤ 1 + u +
n
P
t=1+u+T
τi(n)
≤
1
+
1{τi(t−1) ≥u; i∈Kt } pour tout entier u > 1
u
+
n
X
t=1+u+T
Par ailleurs, pour tout γ ∈ R, on a :
1τi(t−1) ≥u;∃j∈K∗ :τj(t−1) >0 st Gi,τi(t−1) ,t ≥Gj,τj(t−1) ,t
4
1nτ
i(t−1) ≥u;∃j∈K
∗ :τ
j(t−1) >0
st Gi,τi(t−1) ,t ≥Gj,τj(t−1) ,t
o
≤ 1{∃s:u≤s≤t−1 st Gi,s,t >γ} + 1{∃j∈K∗ ,∃sj :1≤sj ≤t−1 st Gj,s
j ,t
≤γ }
D’où :
E[τi(n) ] ≤ 1 + u +
n
P
P(∃s : u ≤ s ≤ t − 1 st Gi,s,t > γ)+
t=u+1+T
n
P
P(∃j ∈ K∗ , ∃sj : 1 ≤ sj ≤ t − 1 st Gj,sj ,t ≤ γ)
t=u+1+T
E[τi(n) ] ≤ 1 + u +
n
P
t−1
P
P(Gi,s,t > γ)+
t=u+1+T s=u
n
P
k
P
P(∃sj : 1 ≤ sj ≤ t − 1 st Gj,sj ,t ≤ γ)
t=u+1+T j=1
En choisissant γ = µ∗ = µk et utilisons la notation suivante :
– P1j,sj ,t = P(∃sj : 1 ≤ sj ≤ t − 1 st Gj,sj ,t ≤ µ∗ ), j ∈ K∗
– P2i,s,t = P(Gi,s,t > µ∗ )
n
P
Donc : E[τi(n) ] ≤ 1 + u +
t−1
P
t=u+1+T s=u
P2i,s,t +
n
P
k
P
t=u+1+T j=1
P1j,sj ,t
Contribution de P1j,sj ,t :
P(∃sj : 1 ≤ sj ≤ t − 1 st Gj,sj ,t ≤ µ∗ )
≤ P(∃sj : 1 ≤ sj ≤ t − 1 st Gj,sj ,t ≤ µj )
Comme ∀j ∈ K∗ on a µ∗ = µk ≤ µj
En utilisant les résultats du Théorème 1 dans (Audibert et al.,, 2007), on obtient :
P(Gj,sj ,t ≤ µj ) ≤ β(ln(t), t)
simultanément ∀sj ∈ {1, 2, ..., t}, où, comme précisé dans (Audibert et al.,, 2007),
β(ln(t), t) est de l’ordre de e− ln(t) = 1/t
5
Finalement :
n
X
k
X
P1j,sj ,t ≤
t=u+1+T j=1
n
X
k
X
β(ln(t), t) ≤ k
t=u+1+T j=1
n
X
β(ln(t), t)
t=u
Contribution de P2i,s,t :
En utilisant le même argument que dans la preuve du Théorème 3 dans (Audibert
et al.,, 2007) on peut directement conclure qu’en prenant u le plus petit entier inférieur
2
σ2
à d8( 2i + ) ln(n), pour tout s ≤ u ≤ t − 1 et t ≥ 2 :
δi
δi
q
δi
2 ln(t)(σi2 +δi /2)
+ 3 ln(t)
s
s ≤ 2 (1)
Par ailleurs, pour tout s ≥ u et t ≥ 2, en utilisant (1)
P(Gi,s,t > µ∗ )
q
2
2 ln(t)b
σi,s
∗
= P(b
µi,s +
+ 3 ln(t)
s
s >µ )
q
2
2 ln(t)b
σi,s
= P(b
µi,s +
+ 3 ln(t)
s
s > δi + µi )
q
2 ln(t)(σi2 +δi /2)
2
+ 3 ln(t)
σi,s
≥ σi2 + δi /2)
≤ P(b
µi,s +
s
s > δi + µi ) + P(b
2
≤ P(b
µi,s − µi > δi /2) + P(b
σi,s
− σi2 ≥ δi /2)
2
2
≤ 2e−sδi /(8σi +4δi /3)
Comme précisé dans (Audibert et al.,, 2007), à la dernière étape, l’inégalité de
Bernstein est appliquée deux fois.
En sommant ces probabilités, on arrive à :
t−1
P
P(Gi,s,t > µ∗ )
s=u
≤2
t−1
P
2
2
e−sδi /(8σi +4δi /3)
s=u
≤(
24σi2
4
+ )e− ln(n)
δi2
δi
=(
4 1
24σi2
+ )
δi2
δi n
Finalement :
6
n
P
t−1
P
P(Gi,s,t > µ∗ )
t=u+1+T s=u
≤
n 24σ 2
P
4 1
( 2i + )
δ
δ
i n
t=1
i
≤(
4
24σi2
+ )
δi2
δi
Conclusion
En regroupant tous les résultats précédents :
E[τi(n) ] ≤
1 + (1 + 8(
n
P
σi2
24σ 2
2
4
β(ln(t), t)
+ )) ln(n) + ( 2 i + ) + k
2
δi
δi
δi
δi
t=u
Et étant donné que
σi2
2
+
≥2
δi2
δi
E[τi(n) ] ≤
1 + (1 + 8(
n
P
σi2
2
4
24σi2
+
+
))
ln(n)
+
(
)
+
k
β(ln(t), t)
δi2
δi
δi2
δi
t=16 ln(n)
On arrive à :
E[Rn ] ≤
P
(1 + (1 + 8(
i∈K
/ ∗
+(
σi2
2
+ )) ln(n)
2
δi
δi
n
P
4
24σi2
+ )+k
β(ln(t), t))∆i
2
δi
δi
t=16 ln(n)
En utilisant le fait que β(ln(t), t) = α 1t et
n
P
t=1
1
t
1
≤ ln(n)+γ + 2n
≤ ln(n)+γ + 12 ,
où α est un réel, et γ est la constante d’Euler, on obtient finalement :
E[Rn ] ≤
P
i∈K
/ ∗
+(
(1 + (1 + 8(
σi2
2
+ )) ln(n)
2
δi
δi
24σi2
4
+ ) + kα(ln(n) + γ + 21 ))∆i
δi2
δi
7
E[Rn ] ≤ ln(n)
P
C + 8(
i∈K
/ ∗
Avec C = 1 + kα et D =
2
σi2
+
)
∆i + D
δi2
δi
24σ 2
4
1 + 2 i + + kα(γ + 21 ∆i
δi
δi
i∈K
/ ∗
P
1. Bibliographie
Audibert J.-Y., Munos R., Szepesvári C., « Tuning Bandit Algorithms in Stochastic Environments », Proceedings of the 18th International Conference on Algorithmic Learning Theory,
ALT ’07, Springer-Verlag, Berlin, Heidelberg, p. 150-165, 2007.