Factorisation matricielle adaptative pour l`apprentissage par transfert

Transcription

Factorisation matricielle adaptative pour l`apprentissage par transfert
Projet de thèse de doctorat à l’Université Paris 13
Ecole Doctorale N°146 : Sciences, Technologie, Santé (Galilée)
Sujet de thèse
Factorisation matricielle adaptative pour
l’apprentissage par transfert
Adaptive matrix factorization for transfer learning
Directeur :
Younès Bennani, Professeur
Laboratoire : LIPN UMR 7030 du CNRS
Equipe :
A3 (Apprentissage Artificiel et Applications)
Résumé :
L’apprentissage par transfert consiste à utiliser un jeu de tâches pour influencer
l'apprentissage
et
améliorer
les
performances
sur
une
autre
tâche.
Cependant,
l’apprentissage par transfert peut en réalité gêner les performances si les tâches sont trop
dissemblables. Un défi pour l’apprentissage par transfert est donc de développer des
approches qui détectent et évitent le transfert négatif des connaissances utilisant très peu
d’informations sur la tâche cible. Dans ce projet de recherche, nous proposons de
développer des approches adaptatives basées sur la factorisation matricielle permettant
ainsi de trouver une représentation adéquate des données pour ce type d’apprentissage. En
effet, une représentation utile rend généralement la structure latente dans les données
explicite, et réduit souvent la dimensionnalité des données afin que d’autres méthodes de
calcul puissent être appliquées. La factorisation matricielle est une approche couramment
utilisée pour la compréhension de la structure latente de la matrice observée des données
pour diverses applications. Ces méthodes matricielles ont suscité récemment une attention
croissante
en
raison
de
leur
élégance
mathématique
et
les
résultats
empiriques
encourageants pour une variété d’applications.
Contexte de la recherche :
Le travail proposé se situe dans la continuité d’une part de l’un des axes majeurs développé
par la composante numérique de l’équipe A3 du LIPN depuis de nombreuses années portant
sur l’apprentissage non supervisé, d’autre part dans la continuité des activités de recherche
récemment développées liées à l’apprentissage collaboratif et l’apprentissage à partir de flux
de données.
Compétences souhaitées :
Ce sujet de thèse requiert principalement des compétences en apprentissage statistique,
avec des connaissances dans le domaine de la fouille de données.
Une aisance certaine en informatique est fortement souhaitée au vu de la composante
modélisation numérique du sujet. En outre, le goût pour la recherche et le travail en équipe
sera un atout majeur.
Compétences acquises lors du travail de thèse :
Le sujet proposé doit permettre tout d’abord d’acquérir de solides compétences théoriques
dans le domaine de l’apprentissage statistique, plus particulièrement liées au paradigme du
transfert et les méthodes de factorisation matricielle. Les compétences acquises dans cette
direction offriront une ouverture vers plusieurs domaines actuellement à la pointe de la
recherche.
Description :
L’apprentissage par transfert est le processus par lequel un individu utilise un
apprentissage acquis dans une situation pour l’appliquer à une autre situation. Le transfert
est la capacité à utiliser nos expériences antérieures dans de nouveaux apprentissages.
Ce paradigme d’apprentissage par transfert, consiste donc à utiliser un jeu de tâches pour
influencer l'apprentissage et améliorer les performances sur une autre tâche. Cependant,
l’apprentissage par transfert peut en réalité gêner les performances si les tâches sont trop
dissemblables. Un défi pour l’apprentissage par transfert est donc de développer des
approches qui détectent et évitent le transfert négatif des connaissances utilisant très peu
d’informations sur la tâche cible.
L’apprentissage par transfert implique deux problèmes corrélés, ayant comme but
l'utilisation de la connaissance acquise sur un jeu de tâches et améliorer les performances
pour une autre tâche liée. Particulièrement, l’apprentissage par transfert d’une certaine
tâche cible - la tâche sur laquelle les performances sont mesurées - est très dépendant de
l’apprentissage d'un ou des tâches auxiliaires. Par exemple, les athlètes se servent de
l’apprentissage par transfert quand ils pratiquent des activités auxiliaires afin de s'améliorer
dans leur activité principale plus compétitive.
L'apprentissage par transfert est un processus cognitif qui peut avoir des effets positifs ou
négatifs sur les conduites à venir. Autrement dit : facilitation d’un apprentissage en fonction
d’un apprentissage antérieur.
Il y a trois catégories typiques :
1. Le transfert bilatéral : la capacité de faire avec une main ce qui a été appris avec
l’autre. Exemple : un jongleur qui apprend à jongler par la main gauche aura par la
suite plus de facilité à apprendre à jongler par la main droite.
2. Apprendre à apprendre : d’une manière générale plus on apprend une tache d’un
même types plus vite on apprend, c’est ce qu’on retrouve dans la vie courante, le
premier jeu de vidéo facilitera les suivants, en seconde on commence à faire le
commentaire linéaire et par la suite le commentaire composé ce qui facilite ce
dernier.
3. Le transfert négatif : en effet un premier apprentissage peut gêner le suivant, par
exemple si on a appris à taper sur un clavier d’ordinateur à deux doigts on aura du
mal par la suite à apprendre à taper avec les dix doigts.
Le défi clé de l’apprentissage par transfert est d'identifier quelle connaissance doit être
transférée et comment ?
Par ailleurs, un problème fondamental dans de nombreuses tâches en apprentissage
artificiel est de trouver une représentation adéquate des données. Une représentation utile
rend généralement la structure latente dans les données explicite, et réduit souvent la
dimensionnalité des données afin que d’autres méthodes de calcul puissent être appliquées.
La factorisation matricielle est une approche couramment utilisée pour la compréhension de
la structure latente de la matrice observée des données pour diverses applications. Ces
méthodes matricielles ont suscité récemment une attention croissante en raison de leur
élégance mathématique et les résultats empiriques encourageants pour une variété
d’applications. Il existe de nombreuses formes de factorisation matricielle :
Nonnegative
Matrix Factorization (NMF), Kernel-NMF, Maximum margin matrix factorization (MMMF)
Orthogonal symmetric NMF, Probabilistic NMF, Relaxed NMF, Semi-NMF, Tri-NMF,
Weighted NMF, Weighted NMTri-Factorization, …. Des travaux antérieurs ont montré que si
la positivité est respectée, les résultats de la factorisation seront plus faciles à interpréter
tout en étant comparables (voire mieux) à d'autres techniques.
L’objectif de ce sujet de recherche, est donc de développer et d’étudier des méthodes de
factorisation matricielle pour trouver une représentation adéquate des données dans le
cadre de l’apprentissage par transfert, d'identifier quelle connaissance doit être transférée et
comment ? et d’exhiber les avantages et les inconvénients de ce paradigme d’apprentissage
automatique avec des illustrations sur des données réelles.
Les principaux axes de recherche à explorer dans cette étude se présentent de la façon
suivante :
•
Étudier l'état de l'art sur les méthodes de factorisation matricielle.
•
Trouver des représentations adéquates des données pour ce type
d’apprentissage.
•
Développer des approches adaptatives qui détectent et évitent le transfert négatif
des connaissances utilisant très peu d’informations sur la tâche cible.
•
Développer des approches adaptatives de transfert des connaissances.
•
Proposer des méthodes permettant d’étudier les propriétés de ce type
d’apprentissage.
Références :
1. J. Baxter. « A model of inductive bias Learning ». Journal of Artificial Intelligence
Research, 12:149–198, 2000.
2. R. Caruana. « Multitask Learning ». Machine Learning, 28(1):41–70, 1997.
3. P. Domingos and M. Pazzani. « On the optimality of the simple bayesian classifier
under zero-one loss ». Machine Learning, 29(2–3):103–130, 1997.
4. A. Gelman, J. B. Carlin, H. S. Stern, and D. B. Rubin. « Bayesian Data Analysis »,
Second Edition. Chapman and Hall/CRC, Boca Raton, FL, 2004.
5. N. Grozavu, Y. Bennani, L. Labiod, «Feature space transformation for transfer
learning», in Proc. IJCNN, IEEE International Joint Conference on Neural Network,
Brisbane- Australia - June 10-15, 2012.
6. R. Neal. « Slice sampling ». Annals of Statistics, 31(3):705–767, 2003.
7. C. Sutton and A. McCallum. « Composition of conditional random fields for transfer
Learning ». In Proceedings of the Human Language Technologies / Emprical Methods
in Natural Language Processing Conference (HLT/EMNLP), 2005.
8. S. Thrun and J. O’Sullivan. « Discovering structure in multiple learning tasks: the TC
algorithm ». In L. Saitta, editor, Proceedings of the Thirteenth International
Conference on Machine Learning, pages 489–497. Morgan Kaufmann, 1996.
9. P. Wu and T. G. Dietterich. « Improving SVM accuracy by training on auxiliary data
sources ». In Proceedings of the Twenty-First International Conference on Machine
Learning, pages 871–878. Morgan Kaufmann, 2004.
10. L. Eldén. « Matrix Methods in Data Mining and Pattern Recognition », Society for
industrial and applied mathematics, Philadelphia, 2007.
11. R. Salakhutdinov and A. Mnih, « Probabilistic Matrix Factorization ». Proc. Advances
in Neural Information Processing Systems 20 (NIPS 07), ACM Press, 2008, pp. 12571264.
12. Lee, DD & Seung, HS (1999). « Learning the parts of objects by non-negative matrix
factorization ». Nature 401, 788–791.
13. Delbert Dueck and Brendan Frey. « Probabilistic sparse matrix factorization ».
Technical Report PSI TR 2004-023, Dept. of Computer Science, University of
Toronto, 2004.
14. Jason D. M. Rennie and Nathan Srebro. « Fast maximum margin matrix factorization
for collaborative prédiction ». In Luc De Raedt and Stefan Wrobel, editors, Machine
Learning, Proceedings of the Twenty-Second International Conference (ICML 2005),
Bonn, Germany, August 7-11, 2005, pages 713–719. ACM, 2005.
15. Nathan Srebro, Jason D. M. Rennie, and Tommi Jaakkola. « Maximum-margin
matrix factorization ». In Advances in Neural Information Processing Systems, 2004.