Présentation de l`INRIA
Transcription
Présentation de l`INRIA
1 Web et Industrie Serge Abiteboul, INRIA Saclay & ENS Cachan Juin 2009 S. Abiteboul – INRIA Saclay 2 Organisation Le Web grand public Le Web dans l’industrie Gestion d’information en P2P Perspective de recherche • A l’INRIA • Zooms sur des sujets de recherche Conclusion S. Abiteboul – INRIA Saclay 3 Le Web grand public 4 Success stories sur le Web Google: gestion des pages du Web Amazon, eBay: catalogues de vente sur le Web Facebook: informations personnelles et communautés Emule: musique en ligne Flickr: base de données de photos Myspace: pages Web Quel est leur point commun ? YouTube: vidéos Wikipedia: dictionnaire Meetic: fiches individuelles Gestion d’information sur le Web Dailymotion: vidéos S. Abiteboul – INRIA Saclay 5 La gestion d’information – contexte Un grand succès de l’informatique du 20ème siècle • • Le modèle relationnel Des tableaux à deux dimensions sur des serveurs centralisés S. Abiteboul – INRIA Saclay 6 Ca a bougé… S. Abiteboul – INRIA Saclay 7 Pour quelles sources d’information? Base de données sur un serveur Une machine outil Un système de fichier Un équipement télécom Un serveur Web Un jouet Un PC Etc. Un PDA ? Un smartphone Un senseur Un objet communicant domotique Une voiture N’importe quel objet ou logiciel connecté au réseau avec de l’information à partager S. Abiteboul – INRIA Saclay 8 Le risque: se noyer sous un océan de données De plus en plus facile de publier De plus en plus de données publiées De plus en plus difficile de trouver l’info De plus en plus difficile de l’avoir à temps d o n n é e s d o n n é e s S. Abiteboul – INRIA Saclay temps temps 9 Ca a bougé Un grand succès de l’informatique du 20ème siècle • • Le modèle relationnel Des tableaux à deux dimensions sur des serveurs centralisés Avec le Web, aujourd’hui • • • • Les données sont hétérogènes (format, structure, métadonnées, ontologies, multimédia, etc.) Les serveurs de données sont hétérogènes, distribués, autonomes, parfois mobiles (BDs, PDA, téléphones, objets communicants, senseurs…) L’information est changeante, imprécise, incohérente parfois Parfois grande échelle: Millions de serveurs, terra octets de données, milliards d’objets communicants S. Abiteboul – INRIA Saclay 10 Les standards du Web L’information résidait sur des iles avec des formats, des langages de programmation, des applications, des systèmes d’exploitations différents Mais ça a changé avec XML Owl les standards du Web RDFS • • • • XML : données Xquery : requêtes SOAP : calcul distribué Services Web - BPEL Owl : sémantique SOAP WSDL BPEL Accès uniforme et universel à l’information… S. Abiteboul – INRIA Saclay Xquery Xpath 11 XML et tout le spectre d’information Minimal structure Hierarchy Books + Contracts Emails Catalogs Financial Reports Economical Analysis Insurance Claims Sports News S. Abiteboul – INRIA Saclay Bank accounts Insurance Policies Derivatives Political analysis Financial News Structured Data Meta data Resumes Inventory 12 Xquery (et Xpath) Une « logique » pour des arbres étiquetés, ordonnés, non bornés • langage déclaratif Inspiré de SQL: standard pour données relationnelles Inspiré de OQL: standard pour données objet Mélange le contenu et la structure: BD et recherche d’information • • Documents où Twingo apparait dans le titre Langage de mise-à-jour S. Abiteboul – INRIA Saclay 13 Services Web et calcul distribué Possibilité d’activer une méthode sur un serveur Web distant (un peu Corba en moins sophistiqué) Echange d’information en XML: input/résultat en XML Infrastructure pour faire du calcul distribué partout Avec XML et les services Web, il est devenu possible • • D’obtenir de l’information de quasiment partout De publier de l’information de quasiment partout Une famille de standards: SOAP, WSDL, UDDI S. Abiteboul – INRIA Saclay 14 Les workflows: chorégraphie de services Wikipedia: On appelle « workflow » la modélisation et la gestion informatique de l'ensemble des tâches à accomplir et des différents acteurs impliqués dans la réalisation d'un processus métier Un workflow est un flux d'informations au sein d'une organisation Business Process Execution Language (BPEL), un standards exécutable pour spécifier des interactions avec des services Web S. Abiteboul – INRIA Saclay 15 Sémantique: des standards émergeants Je ne vais beaucoup parler de sémantique Web sémantique Domaine très actif Standards encore peu figés S. Abiteboul – INRIA Saclay 16 Un accès uniforme à l’information … … Le rêve de la gestion de données distribuées 17 Tendances Plus de sémantique: Web sémantique • Un programme peut poser des questions précises et obtenir des réponses précises Plus d’interaction • Web 2.0 & réseaux sociaux • Wiki, mashups, facebook, twitter… Applications de plus en plus &pair-à-pair S. Abiteboul – INRIA Saclay distribuées 18 Et l’industrie 19 Ils font comme tout le monde Ils utilisent • • • • • Google Leurs réseaux sociaux comme Linkedin Youtube et Dailymotion (pour la pub, la formation…) Twitter pour le buzz Des sites d’emploi (leur Meetic) Ils vendent/achètent sur e-bay Ils font des sites Webs S. Abiteboul – INRIA Saclay 20 Ils ont leurs propres applications Commerce: propres sites • • Vendre: e-business Achat: e-approvisionnement Ils utilisent le Web pour informatiser leurs processus • • • Web service et workflows BPEL Fabrication Traçabilité Même si ça se voit moins, ils l’utilisent énormément • • Virage XML plus rapide que le grand public qui reste textuel Virage Web service plus rapide – car ça demande des ingénieurs S. Abiteboul – INRIA Saclay 21 Ce qui leur plait Outils de gestion/partage de données distribuées • • • Standard d’ échanges: XML. Possibilité de déploiement très rapide Moteur de recherche Web Faire baisser les coûts de développement d’applications réparties • • Outils de composition et d’orchestration de services - Web services Outils de déploiement rapide d’applications réparties - Mashups S. Abiteboul – INRIA Saclay 22 Ils ont des contraintes particulières Qualité de service: performance, sécurité, disponibilité • Souvent inacceptable pour eux sur le Web aujourd’hui Contrôle d’accès et confidentialité • • Idem Facebook comme réseau social d’entreprise – c’est pas sérieux Ils commencent à trouver que l’informatique coûte cher et aiment bien le gratuit même si • • Ils ne peuvent pas se permettre le piratage Ils n’hésitent pas à payer S. Abiteboul – INRIA Saclay 23 Gestion d’information en pair-à-pair 24 Gestion d’information en P2P Content Sharing Community (CSC): Un groupe d’utilisateurs qui partagent de l’information à l’intérieur d’un domaine particulier • Exemples: Un groupes de sociétés, des scientifiques dans un certain domaine, une association, un groupe d’amis Problème nouveau de gestion de données • • Les données sont hétérogènes et dynamiques Les données sont distribuées S. Abiteboul – INRIA Saclay 25 La difficulté Arriver à faire coopérer des machines autonomes SGBD distribués • • • Depuis longtemps un écueil de la gestion de données Lourds à mettre en place Nombre restreint de machine & Souvent systèmes homogènes Pourquoi c’est devenu faisable • • • On va limiter nos exigences On va utiliser la puissance du parallélisme Et surtout: les nouveaux standards du Web S. Abiteboul – INRIA Saclay 26 Pair-à-pair Pair-à-pair: un nombre important et changeant de systèmes coopèrent pour réaliser une tache sans aucune autorité centrale Pair-à-pair massif: musique en ligne avec des millions de pairs Pair-à-pair pas massif: gestion de données dans une entreprise avec des dizaines de pairs S. Abiteboul – INRIA Saclay De bonnes raisons pour une gestion P2P de données Des raisons techniques • • Performance Disponibilité Des raisons socio-économiques • • • Coût Organisation décentralisée Contrôle des données S. Abiteboul – INRIA Saclay 27 28 Avantage technique: performances Exemple: Dans un système centralisé, plus un document est populaire, plus ça prend du temps de l’obtenir Avec un système P2P comme BitTorrent, c’est le contraire Serveur saturé Accélération S. Abiteboul – INRIA Saclay Avantage technique: disponibilité Avantages • Plusieurs copies d’une même donnée, disponible même en cas de • panne Système d’archivage et de sauvegarde en P2P Aussi des désavantages d’un point de vue technique • Plus complexe donc risque de pannes • Difficile de gérer les mises-à-jour • Difficile de contrôler la qualité de service S. Abiteboul – INRIA Saclay 29 Avantage économique: gestion de données à coût zéro On utilise un système P2P gratuit On utilise des machines existantes (pc, livebox, etc.) On utilise les ingénieurs qui gèrent déjà ces systèmes et leurs applications Bien adapté au Web et sa philosophie du « tout gratuit » • Moins que pour le grand public • Même les entreprises s’habituent au « free » S. Abiteboul – INRIA Saclay 30 31 Avantage économique: bien adapté aux organisations peu centralisées Avantages du P2P • Pas nécessaire de trouver un leader • Pas nécessaire de décider/imposer des règles fortes • Possibilité de laisser chacun indépendant et autonome Désavantages du P2P pour des organisations très centralisées • Plus difficile d’imposer des règles fortes • Plus difficile de garantir la cohérence des données en présence de mises-à-jour Bien adapté aux gros groupes avec des entités indépendantes – même s’ils n’en sont pas encore convaincus ☺ S. Abiteboul – INRIA Saclay 32 Mais des difficultés aussi Complexité • Cause sérieuse de pannes Difficulté de gérer les mises-à-jour Difficulté de contrôler la qualité de service Comportement asociaux • • Spam, spamdexing & autres Confiance S. Abiteboul – INRIA Saclay 33 Ça n’arrive pas vite dans l’industrie QoS Business model pas clair • • Qui paie? Pour quoi? S. Abiteboul – INRIA Saclay 34 Perspective de recherche A l’INRIA Zooms sur des sujets de recherche 35 A l’INRIA De nombreuses équipes travaille autour du Web Nombreux verrous technologiques Gestion de données distribuées Gestion de connaissance Linguistique computationnelle Systèmes pair-à-pair Spécification et vérification d’applications réparties Interface humain-machine Etc. S. Abiteboul – INRIA Saclay 36 3 Zooms (sûrement moins par manque de temps) • Surveillance du Web • Facebook en P2P • Artifacts business S. Abiteboul – INRIA Saclay 37 Surveillance du Web: Fonctionnalités Acquisition de données • • • Crawl du Web focalisé sur un domaine Surveillance des changements: gestion de flux de données Intégration avec les données de l’entreprise: outils LTE Gestion de données • Stockage, indexation, requêtes/mises-à-jour, contrôle d’accès Enrichissement • • • Classification, annotations sémantiques Multilinguisme Gestion d’ontologies, extraction de connaissances Exploitation • IHM, fouille de données S. Abiteboul – INRIA Saclay 38 Surveillance du Web: Webcontent (1) Plateforme ANR Entrepôt pour le Web sémantique • • http://www.webcontent.fr INRIA, CEA, Thales, EADS, Soredab, INRA, Exalead, etc. Premières applications • • • • Veille économique en aéronautique Intelligence stratégique Risque alimentaire microbiologique et chimique Surveillance d’évènements sismique S. Abiteboul – INRIA Saclay 39 Surveillance du Web: Webcontent (2) Archi basée sur XML et les services Web • • Services d’acquisition, enrichissement, d’exploitation Autour d’un service de gestion de données XML 2 architectures • • Archi centralisée autour d’un bus logiciel Archi P2P autour d’un système de gestion de XML en P2P S. Abiteboul – INRIA Saclay 40 Facebook stocke des données personnelles Plein d’autres systèmes également Difficile de contrôler ce qu’ils en font Difficile de garder mes données à jour S. Abiteboul – INRIA Saclay 41 Facebook: Architecture Facebook X Bob Bob XX Sue Sue Sue S. Abiteboul – INRIA Saclay Delicious Myspace Gmail LinkedIn 42 Facebook en P2P Facebook Facebook Facebook Facebook Directes interactions Je garde le contrôle sur mes données personnelles chez Bob Proxy Bob Bob Proxy Sue Sue Sue Toutes les applications qui me concernent partagent les mêmes données Sue S. Abiteboul – INRIA Saclay • Si je change de numéro de téléphone, je n’ai pas à le changer dans 100 systèmes 43 Facebook en P2P (fin) Droits d’accès en P2P – cryptographie Index en P2P (avec des données cryptées) Faire tourner chez soi des applications développées par des inconnus S. Abiteboul – INRIA Saclay 44 Workflows centrés sur les données (1) Artifact business: document qui représente une activité humaine • • Commande, voyage, objet à construire Évolue dans le temps suivant certaines règles Active XML Artifacts • • Modèle basé sur XML avec des appels de services imbriqués Documents que l’ont peut s’échanger Domaine général: workflow centré sur les données • • Combine les systèmes de workflow et les systèmes de gestion de données Bien adapté pour des applications distribuées Application jouet: le système de fabrication de Dell: sites commerciaux, banques, usines, entrepôts, société livraison S. Abiteboul – INRIA Saclay 45 Workflows centrés sur les données (2) Quelques sujets de recherche dans ce cadre Aide à la conception de tels systèmes • Vérifier que le code est conforme aux spécifications Surveillance de tels systèmes • • • Prévoir les ruptures de stock de pièces détachés Aider au dispatching Détecter les disfonctionnement et en trouver les causes Passage à l’échelle Contrôle accès, qualité des données et confiance S. Abiteboul – INRIA Saclay 46 Conclusion 47 Conclusion Prévision sur le Web : il faut être très modeste Ça va ralentir – on a fait le plus facile et on arrive aux sujets durs • Linguistique • Gestion de connaissances… Ça va continuer à bouger – créativité humaine • Web sémantique : Web de connaissances plutôt que de texte • Web 2.0 : un Web plus interactif, plus communautaire • Web des objets • Web du pair-a-pair Histoire : pour le Web, on a toujours sous-estimé la créativité humaine S. Abiteboul – INRIA Saclay 48 Merci