Intégration de flux RSS - Cedric

Transcription

Intégration de flux RSS - Cedric
Sujet de stage M2 recherche 2007-2008
Intégration de flux RSS
Contexte
Les flux RSS [1, 2] constituent un élément de base de l’architecture des applications Web 2.0, marquant
le passage d’un web statique vers une relation dynamique entre les producteurs et les consommateurs de
contenu. Ils offrent à la fois des sources de données XML, des flux d’articles [3], du contenu et des liens,
une architecture distribuée, des événements de mise à jour, etc. La syndication de flux RSS représente un
nouveau paradigme d’exploitation distribuée de données sur le web.
Ce travail s’inscrit dans le cadre du projet ANR ROSES (http ://www-bd.lip6.fr/roses/ ), qui vise la
définition de modèles, méthodes et outils pour l’exploitation des flux RSS, en appliquant des techniques de
modélisation et de gestion de données XML distribuées [4, 5].
Objectif
L’objectif de ce stage est de construire les briques de base de l’exploitation de flux RSS dans le projet
ROSES, qui seront utilisées dans une étape future pour définir et implémenter un modèle algébrique, un
langage de requêtes, un modèle de vues pour composition de données XML et flux RSS, etc.
Il s’agit tout d’abord de définir un modèle pour les flux RSS, qui concerne deux aspects :
– la notion de flux RSS, couvrant à la fois le côté données XML (structure fixe prévue par les normes
RSS, enrichissement de cette structure, liens), ainsi que le côté flux d’articles (événements, estampille
temporelle, mises à jour, etc).
– l’architecture d’exploitation des flux RSS, la production/consommation de flux, la souscription/notification,
l’agrégation de flux, l’interrogation, le classement, etc.
Le second objectif est la création d’une API Java pour l’exploitation des flux RSS, qui implémente le
modèle ci-dessus et les opérations de base sur les flux. Elle sera organisée à plusieurs niveaux d’abstraction
et offrira des fonctionnalités incluant :
– la création et la mise à jour des flux RSS
– la gestion des événements, les souscriptions/notifications
– les opérations de base sur les flux : filtrage, projection, jointure, traversée des liens, etc
– des primitives d’interrogation des flux RSS
Ce stage ouvre la perspective d’une continuation en thèse, dont le financement est déjà assuré dans le
projet ROSES.
Organisation
Le stage doit débuter au printemps 2008 et durera 6 mois. Une indemnité de stage sera accordée. Le stage
se déroulera au CNAM Paris dans l’équipe de recherche Vertigo (http ://cedric.cnam.fr/vertigo/) du laboratoire CEDRIC (http ://cedric.cnam.fr/), en collaboration avec l’équipe de bases de données du laboratoire
LIP6 (http ://www-bd.lip6.fr/).
Encadrant : Dan VODISLAV
Conservatoire National des Arts et Métiers
2 rue Conté, 75003 Paris
vodislav (à) cnam.fr
Références
[1] RSS 2.0 Specification. http ://www.rssboard.org/rss-specification.
[2] The Atom Syndication Format, IETF RFC 4287. http ://tools.ietf.org/html/rfc4287.
[3] A. Arasu, B. Babcock, S. Babu, M. Datar, K. Ito, R. Motwani, I. Nishizawa, U. Srivastava, D. Thomas,
R. Varma, and J. Widom. STREAM : The Stanford Stream Data Manager. IEEE Data Eng. Bull.,
26(1) :19–26, 2003.
[4] H. V. Jagadish, L. V. S. Lakshmanan, D. Srivastava, and K. Thompson. TAX : A Tree Algebra for XML.
In DBPL, pages 149–164, 2001.
[5] T. Milo, S. Abiteboul, B. Amann, O. Benjelloun, and F. D. Ngoc. Exchanging intensional XML data.
ACM Trans. Database Syst., 30(1) :1–40, 2005.