Apprentissage en temps réel pour la collecte d`information dans les
Transcription
Apprentissage en temps réel pour la collecte d`information dans les
Apprentissage en temps réel pour la collecte d’information dans les réseaux sociaux Preuve de convergence Thibault Gisselbrecht* , Ludovic Denoyer** , Patrick Gallinari** , Sylvain Lamprier** Sorbonne Universités, UPMC Univ Paris 06, UMR 7606, LIP6, F-75005, Paris, France CNRS, UMR 7606, LIP6, F-75005, Paris, France * [email protected] ** pré[email protected] RÉSUMÉ. Ce document constitue la preuve détaillée de la borne supérieur de l’espérance du regret cumulé pour l’algorithme CUCBV proposé dans l’article intitulé: "Apprentissage en temps réel pour la collecte d’information dans les réseaux sociaux" ABSTRACT. This supplementary content aims at proving the upper-bound of the cumulative regret of the CUCBV algorithm we proposed in the main paper entitled "Apprentissage en temps réel pour la collecte d’information dans les réseaux sociaux" MOTS-CLÉS : Apprentissage statistique, réseaux sociaux, bandit manchot KEYWORDS: Machine Learning, Social Network, Multi-armed Bandit 2 Notations : – K l’ensemble complet des K actions possibles ; – µi l’espérance de la récompense associé à l’action i ; – On ordonne les actions de la façon suivantes ∀i, µi ≥ µi+1 ; – K∗ est l’ensemble des k actions ayant la plus forte espérance ; – ∆i est défini comme la différence entre µ∗ , la moyenne des espérances des actions dans K∗ , et µi : ∆i = µ∗ − µi ; – δi correspond à la différence entre µ∗ , la plus faible espérance dans K∗ , et µi : δi = µ∗ − µi ; –µ bi,s est la moyenne empirique associé à l’action i après qu’elle ait été choisie s fois ; – τi(t) est le nombre de fois qu’une action i a été choisie dans les t premiers pas de temps. Nous considérons également que toutes les actions sont connues et faisons l’hypothèse que µk > µk+1 . Première partie de la preuve : En utilisant l’ordonnancement des actions selon leur espérance et sous une politique π on a : Eπ [Rn ] = Eπ [ n P k P P ( µj − µi )] t=1 j=1 = Eπ [n k P µj − k P j=1 n P P µi ] t=1 i∈Kt j=1 = Eπ [n i∈Kt µj − K P τi(n) × µi ] i=1 PK Indépendamment de l’action choisie, i=1 τi(n) = kn, donc : PK Pk µ Eπ [Rn ] = Eπ [ i=1 (τi(n) j=1 kj − µi )] d’où : Eπ [Rn ] = K X Eπ [τi(n) ]∆i i=1 Dans la suite on remplace la notation Eπ par E pour des raisons de simplicité. Seconde partie de la preuve : 3 L’étude de la borne supérieure du regret cumulé moyen commence par la séparation des contributions des actions optimales et des actions non optimales : E[Rn ] = K X E[τi(n) ]∆i = i=1 k X E[τi(n) ]∆i + i=1 K X E[τi(n) ]∆i i=k+1 Donc, étant donné que l’on ne peut pas choisir une action plusieurs fois dans un même pas de temps, nous savons que E[τi(n) ] ≤ n d’où : E[Rn ] ≤ n k X K X ∆i + i=1 E[τi(n) ]∆i i=k+1 Pk En remarquant aussi que i=1 ∆i = 0, nous pouvons restreindre notre étude à la contribution des actions non optimales : E[Rn ] ≤ K X E[τi(n) ]∆i i=k+1 Considérant l’algorithme CUCBV, après T = dK/ke, chaque action est choisie au moins une fois à cause de l’initialisation des scores à ∞. q 2 2 ln(t)b σi,s + 3 ln(t) On note : Gi,s,t = µ bi,s + s s Donc à chaque pas de temps t, t ≥ dT e on obtient : ∀i ∈ Kt : τi(t−1) > 0, ∃j ∈ K∗ : τj(t−1) > 0 tq Gi,τi(t−1) ,t ≥ Gj,τj(t−1) ,t Nous étudions maintenant le terme τi(n) : τi(n) = n P 1{i∈Kt } t=1 n P τi(n) ≤ 2 + 1{i∈Kt } t=1+T τi(n) ≤ 1 + u + n P t=1+u+T τi(n) ≤ 1 + 1{τi(t−1) ≥u; i∈Kt } pour tout entier u > 1 u + n X t=1+u+T Par ailleurs, pour tout γ ∈ R, on a : 1τi(t−1) ≥u;∃j∈K∗ :τj(t−1) >0 st Gi,τi(t−1) ,t ≥Gj,τj(t−1) ,t 4 1nτ i(t−1) ≥u;∃j∈K ∗ :τ j(t−1) >0 st Gi,τi(t−1) ,t ≥Gj,τj(t−1) ,t o ≤ 1{∃s:u≤s≤t−1 st Gi,s,t >γ} + 1{∃j∈K∗ ,∃sj :1≤sj ≤t−1 st Gj,s j ,t ≤γ } D’où : E[τi(n) ] ≤ 1 + u + n P P(∃s : u ≤ s ≤ t − 1 st Gi,s,t > γ)+ t=u+1+T n P P(∃j ∈ K∗ , ∃sj : 1 ≤ sj ≤ t − 1 st Gj,sj ,t ≤ γ) t=u+1+T E[τi(n) ] ≤ 1 + u + n P t−1 P P(Gi,s,t > γ)+ t=u+1+T s=u n P k P P(∃sj : 1 ≤ sj ≤ t − 1 st Gj,sj ,t ≤ γ) t=u+1+T j=1 En choisissant γ = µ∗ = µk et utilisons la notation suivante : – P1j,sj ,t = P(∃sj : 1 ≤ sj ≤ t − 1 st Gj,sj ,t ≤ µ∗ ), j ∈ K∗ – P2i,s,t = P(Gi,s,t > µ∗ ) n P Donc : E[τi(n) ] ≤ 1 + u + t−1 P t=u+1+T s=u P2i,s,t + n P k P t=u+1+T j=1 P1j,sj ,t Contribution de P1j,sj ,t : P(∃sj : 1 ≤ sj ≤ t − 1 st Gj,sj ,t ≤ µ∗ ) ≤ P(∃sj : 1 ≤ sj ≤ t − 1 st Gj,sj ,t ≤ µj ) Comme ∀j ∈ K∗ on a µ∗ = µk ≤ µj En utilisant les résultats du Théorème 1 dans (Audibert et al.,, 2007), on obtient : P(Gj,sj ,t ≤ µj ) ≤ β(ln(t), t) simultanément ∀sj ∈ {1, 2, ..., t}, où, comme précisé dans (Audibert et al.,, 2007), β(ln(t), t) est de l’ordre de e− ln(t) = 1/t 5 Finalement : n X k X P1j,sj ,t ≤ t=u+1+T j=1 n X k X β(ln(t), t) ≤ k t=u+1+T j=1 n X β(ln(t), t) t=u Contribution de P2i,s,t : En utilisant le même argument que dans la preuve du Théorème 3 dans (Audibert et al.,, 2007) on peut directement conclure qu’en prenant u le plus petit entier inférieur 2 σ2 à d8( 2i + ) ln(n), pour tout s ≤ u ≤ t − 1 et t ≥ 2 : δi δi q δi 2 ln(t)(σi2 +δi /2) + 3 ln(t) s s ≤ 2 (1) Par ailleurs, pour tout s ≥ u et t ≥ 2, en utilisant (1) P(Gi,s,t > µ∗ ) q 2 2 ln(t)b σi,s ∗ = P(b µi,s + + 3 ln(t) s s >µ ) q 2 2 ln(t)b σi,s = P(b µi,s + + 3 ln(t) s s > δi + µi ) q 2 ln(t)(σi2 +δi /2) 2 + 3 ln(t) σi,s ≥ σi2 + δi /2) ≤ P(b µi,s + s s > δi + µi ) + P(b 2 ≤ P(b µi,s − µi > δi /2) + P(b σi,s − σi2 ≥ δi /2) 2 2 ≤ 2e−sδi /(8σi +4δi /3) Comme précisé dans (Audibert et al.,, 2007), à la dernière étape, l’inégalité de Bernstein est appliquée deux fois. En sommant ces probabilités, on arrive à : t−1 P P(Gi,s,t > µ∗ ) s=u ≤2 t−1 P 2 2 e−sδi /(8σi +4δi /3) s=u ≤( 24σi2 4 + )e− ln(n) δi2 δi =( 4 1 24σi2 + ) δi2 δi n Finalement : 6 n P t−1 P P(Gi,s,t > µ∗ ) t=u+1+T s=u ≤ n 24σ 2 P 4 1 ( 2i + ) δ δ i n t=1 i ≤( 4 24σi2 + ) δi2 δi Conclusion En regroupant tous les résultats précédents : E[τi(n) ] ≤ 1 + (1 + 8( n P σi2 24σ 2 2 4 β(ln(t), t) + )) ln(n) + ( 2 i + ) + k 2 δi δi δi δi t=u Et étant donné que σi2 2 + ≥2 δi2 δi E[τi(n) ] ≤ 1 + (1 + 8( n P σi2 2 4 24σi2 + + )) ln(n) + ( ) + k β(ln(t), t) δi2 δi δi2 δi t=16 ln(n) On arrive à : E[Rn ] ≤ P (1 + (1 + 8( i∈K / ∗ +( σi2 2 + )) ln(n) 2 δi δi n P 4 24σi2 + )+k β(ln(t), t))∆i 2 δi δi t=16 ln(n) En utilisant le fait que β(ln(t), t) = α 1t et n P t=1 1 t 1 ≤ ln(n)+γ + 2n ≤ ln(n)+γ + 12 , où α est un réel, et γ est la constante d’Euler, on obtient finalement : E[Rn ] ≤ P i∈K / ∗ +( (1 + (1 + 8( σi2 2 + )) ln(n) 2 δi δi 24σi2 4 + ) + kα(ln(n) + γ + 21 ))∆i δi2 δi 7 E[Rn ] ≤ ln(n) P C + 8( i∈K / ∗ Avec C = 1 + kα et D = 2 σi2 + ) ∆i + D δi2 δi 24σ 2 4 1 + 2 i + + kα(γ + 21 ∆i δi δi i∈K / ∗ P 1. Bibliographie Audibert J.-Y., Munos R., Szepesvári C., « Tuning Bandit Algorithms in Stochastic Environments », Proceedings of the 18th International Conference on Algorithmic Learning Theory, ALT ’07, Springer-Verlag, Berlin, Heidelberg, p. 150-165, 2007.