Factorisation matricielle adaptative pour l`apprentissage par transfert
Transcription
Factorisation matricielle adaptative pour l`apprentissage par transfert
Projet de thèse de doctorat à l’Université Paris 13 Ecole Doctorale N°146 : Sciences, Technologie, Santé (Galilée) Sujet de thèse Factorisation matricielle adaptative pour l’apprentissage par transfert Adaptive matrix factorization for transfer learning Directeur : Younès Bennani, Professeur Laboratoire : LIPN UMR 7030 du CNRS Equipe : A3 (Apprentissage Artificiel et Applications) Résumé : L’apprentissage par transfert consiste à utiliser un jeu de tâches pour influencer l'apprentissage et améliorer les performances sur une autre tâche. Cependant, l’apprentissage par transfert peut en réalité gêner les performances si les tâches sont trop dissemblables. Un défi pour l’apprentissage par transfert est donc de développer des approches qui détectent et évitent le transfert négatif des connaissances utilisant très peu d’informations sur la tâche cible. Dans ce projet de recherche, nous proposons de développer des approches adaptatives basées sur la factorisation matricielle permettant ainsi de trouver une représentation adéquate des données pour ce type d’apprentissage. En effet, une représentation utile rend généralement la structure latente dans les données explicite, et réduit souvent la dimensionnalité des données afin que d’autres méthodes de calcul puissent être appliquées. La factorisation matricielle est une approche couramment utilisée pour la compréhension de la structure latente de la matrice observée des données pour diverses applications. Ces méthodes matricielles ont suscité récemment une attention croissante en raison de leur élégance mathématique et les résultats empiriques encourageants pour une variété d’applications. Contexte de la recherche : Le travail proposé se situe dans la continuité d’une part de l’un des axes majeurs développé par la composante numérique de l’équipe A3 du LIPN depuis de nombreuses années portant sur l’apprentissage non supervisé, d’autre part dans la continuité des activités de recherche récemment développées liées à l’apprentissage collaboratif et l’apprentissage à partir de flux de données. Compétences souhaitées : Ce sujet de thèse requiert principalement des compétences en apprentissage statistique, avec des connaissances dans le domaine de la fouille de données. Une aisance certaine en informatique est fortement souhaitée au vu de la composante modélisation numérique du sujet. En outre, le goût pour la recherche et le travail en équipe sera un atout majeur. Compétences acquises lors du travail de thèse : Le sujet proposé doit permettre tout d’abord d’acquérir de solides compétences théoriques dans le domaine de l’apprentissage statistique, plus particulièrement liées au paradigme du transfert et les méthodes de factorisation matricielle. Les compétences acquises dans cette direction offriront une ouverture vers plusieurs domaines actuellement à la pointe de la recherche. Description : L’apprentissage par transfert est le processus par lequel un individu utilise un apprentissage acquis dans une situation pour l’appliquer à une autre situation. Le transfert est la capacité à utiliser nos expériences antérieures dans de nouveaux apprentissages. Ce paradigme d’apprentissage par transfert, consiste donc à utiliser un jeu de tâches pour influencer l'apprentissage et améliorer les performances sur une autre tâche. Cependant, l’apprentissage par transfert peut en réalité gêner les performances si les tâches sont trop dissemblables. Un défi pour l’apprentissage par transfert est donc de développer des approches qui détectent et évitent le transfert négatif des connaissances utilisant très peu d’informations sur la tâche cible. L’apprentissage par transfert implique deux problèmes corrélés, ayant comme but l'utilisation de la connaissance acquise sur un jeu de tâches et améliorer les performances pour une autre tâche liée. Particulièrement, l’apprentissage par transfert d’une certaine tâche cible - la tâche sur laquelle les performances sont mesurées - est très dépendant de l’apprentissage d'un ou des tâches auxiliaires. Par exemple, les athlètes se servent de l’apprentissage par transfert quand ils pratiquent des activités auxiliaires afin de s'améliorer dans leur activité principale plus compétitive. L'apprentissage par transfert est un processus cognitif qui peut avoir des effets positifs ou négatifs sur les conduites à venir. Autrement dit : facilitation d’un apprentissage en fonction d’un apprentissage antérieur. Il y a trois catégories typiques : 1. Le transfert bilatéral : la capacité de faire avec une main ce qui a été appris avec l’autre. Exemple : un jongleur qui apprend à jongler par la main gauche aura par la suite plus de facilité à apprendre à jongler par la main droite. 2. Apprendre à apprendre : d’une manière générale plus on apprend une tache d’un même types plus vite on apprend, c’est ce qu’on retrouve dans la vie courante, le premier jeu de vidéo facilitera les suivants, en seconde on commence à faire le commentaire linéaire et par la suite le commentaire composé ce qui facilite ce dernier. 3. Le transfert négatif : en effet un premier apprentissage peut gêner le suivant, par exemple si on a appris à taper sur un clavier d’ordinateur à deux doigts on aura du mal par la suite à apprendre à taper avec les dix doigts. Le défi clé de l’apprentissage par transfert est d'identifier quelle connaissance doit être transférée et comment ? Par ailleurs, un problème fondamental dans de nombreuses tâches en apprentissage artificiel est de trouver une représentation adéquate des données. Une représentation utile rend généralement la structure latente dans les données explicite, et réduit souvent la dimensionnalité des données afin que d’autres méthodes de calcul puissent être appliquées. La factorisation matricielle est une approche couramment utilisée pour la compréhension de la structure latente de la matrice observée des données pour diverses applications. Ces méthodes matricielles ont suscité récemment une attention croissante en raison de leur élégance mathématique et les résultats empiriques encourageants pour une variété d’applications. Il existe de nombreuses formes de factorisation matricielle : Nonnegative Matrix Factorization (NMF), Kernel-NMF, Maximum margin matrix factorization (MMMF) Orthogonal symmetric NMF, Probabilistic NMF, Relaxed NMF, Semi-NMF, Tri-NMF, Weighted NMF, Weighted NMTri-Factorization, …. Des travaux antérieurs ont montré que si la positivité est respectée, les résultats de la factorisation seront plus faciles à interpréter tout en étant comparables (voire mieux) à d'autres techniques. L’objectif de ce sujet de recherche, est donc de développer et d’étudier des méthodes de factorisation matricielle pour trouver une représentation adéquate des données dans le cadre de l’apprentissage par transfert, d'identifier quelle connaissance doit être transférée et comment ? et d’exhiber les avantages et les inconvénients de ce paradigme d’apprentissage automatique avec des illustrations sur des données réelles. Les principaux axes de recherche à explorer dans cette étude se présentent de la façon suivante : • Étudier l'état de l'art sur les méthodes de factorisation matricielle. • Trouver des représentations adéquates des données pour ce type d’apprentissage. • Développer des approches adaptatives qui détectent et évitent le transfert négatif des connaissances utilisant très peu d’informations sur la tâche cible. • Développer des approches adaptatives de transfert des connaissances. • Proposer des méthodes permettant d’étudier les propriétés de ce type d’apprentissage. Références : 1. J. Baxter. « A model of inductive bias Learning ». Journal of Artificial Intelligence Research, 12:149–198, 2000. 2. R. Caruana. « Multitask Learning ». Machine Learning, 28(1):41–70, 1997. 3. P. Domingos and M. Pazzani. « On the optimality of the simple bayesian classifier under zero-one loss ». Machine Learning, 29(2–3):103–130, 1997. 4. A. Gelman, J. B. Carlin, H. S. Stern, and D. B. Rubin. « Bayesian Data Analysis », Second Edition. Chapman and Hall/CRC, Boca Raton, FL, 2004. 5. N. Grozavu, Y. Bennani, L. Labiod, «Feature space transformation for transfer learning», in Proc. IJCNN, IEEE International Joint Conference on Neural Network, Brisbane- Australia - June 10-15, 2012. 6. R. Neal. « Slice sampling ». Annals of Statistics, 31(3):705–767, 2003. 7. C. Sutton and A. McCallum. « Composition of conditional random fields for transfer Learning ». In Proceedings of the Human Language Technologies / Emprical Methods in Natural Language Processing Conference (HLT/EMNLP), 2005. 8. S. Thrun and J. O’Sullivan. « Discovering structure in multiple learning tasks: the TC algorithm ». In L. Saitta, editor, Proceedings of the Thirteenth International Conference on Machine Learning, pages 489–497. Morgan Kaufmann, 1996. 9. P. Wu and T. G. Dietterich. « Improving SVM accuracy by training on auxiliary data sources ». In Proceedings of the Twenty-First International Conference on Machine Learning, pages 871–878. Morgan Kaufmann, 2004. 10. L. Eldén. « Matrix Methods in Data Mining and Pattern Recognition », Society for industrial and applied mathematics, Philadelphia, 2007. 11. R. Salakhutdinov and A. Mnih, « Probabilistic Matrix Factorization ». Proc. Advances in Neural Information Processing Systems 20 (NIPS 07), ACM Press, 2008, pp. 12571264. 12. Lee, DD & Seung, HS (1999). « Learning the parts of objects by non-negative matrix factorization ». Nature 401, 788–791. 13. Delbert Dueck and Brendan Frey. « Probabilistic sparse matrix factorization ». Technical Report PSI TR 2004-023, Dept. of Computer Science, University of Toronto, 2004. 14. Jason D. M. Rennie and Nathan Srebro. « Fast maximum margin matrix factorization for collaborative prédiction ». In Luc De Raedt and Stefan Wrobel, editors, Machine Learning, Proceedings of the Twenty-Second International Conference (ICML 2005), Bonn, Germany, August 7-11, 2005, pages 713–719. ACM, 2005. 15. Nathan Srebro, Jason D. M. Rennie, and Tommi Jaakkola. « Maximum-margin matrix factorization ». In Advances in Neural Information Processing Systems, 2004.