Présentation de l`INRIA

Transcription

Présentation de l`INRIA
1
Web et Industrie
Serge Abiteboul,
INRIA Saclay & ENS Cachan
Juin 2009
S. Abiteboul – INRIA Saclay
2
Organisation
Le Web grand public
Le Web dans l’industrie
Gestion d’information en P2P
Perspective de recherche
• A l’INRIA
• Zooms sur des sujets de recherche
Conclusion
S. Abiteboul – INRIA Saclay
3
Le Web grand public
4
Success stories sur le Web
Google: gestion des pages du Web
Amazon, eBay: catalogues de vente sur le Web
Facebook: informations personnelles et communautés
Emule: musique en ligne
Flickr: base de données de photos
Myspace: pages Web
Quel est leur point commun ?
YouTube: vidéos
Wikipedia: dictionnaire
Meetic: fiches individuelles
Gestion d’information sur le Web
Dailymotion: vidéos
S. Abiteboul – INRIA Saclay
5
La gestion d’information – contexte
Un grand succès de l’informatique du 20ème siècle
•
•
Le modèle relationnel
Des tableaux à deux dimensions sur des serveurs centralisés
S. Abiteboul – INRIA Saclay
6
Ca a bougé…
S. Abiteboul – INRIA Saclay
7
Pour quelles sources d’information?
Base de données sur un serveur
Une machine outil
Un système de fichier
Un équipement télécom
Un serveur Web
Un jouet
Un PC
Etc.
Un PDA
?
Un smartphone
Un senseur
Un objet communicant domotique
Une voiture
N’importe quel objet ou logiciel
connecté au réseau avec de
l’information à partager
S. Abiteboul – INRIA Saclay
8
Le risque: se noyer sous un océan de données
De plus en plus facile de publier
De plus en plus de données publiées
De plus en plus difficile de trouver l’info
De plus en plus difficile de l’avoir à temps
d
o
n
n
é
e
s
d
o
n
n
é
e
s
S. Abiteboul – INRIA Saclay
temps
temps
9
Ca a bougé
Un grand succès de l’informatique du 20ème siècle
•
•
Le modèle relationnel
Des tableaux à deux dimensions sur des serveurs centralisés
Avec le Web, aujourd’hui
•
•
•
•
Les données sont hétérogènes (format, structure,
métadonnées, ontologies, multimédia, etc.)
Les serveurs de données sont hétérogènes, distribués,
autonomes, parfois mobiles (BDs, PDA, téléphones, objets
communicants, senseurs…)
L’information est changeante, imprécise, incohérente parfois
Parfois grande échelle: Millions de serveurs, terra octets de
données, milliards d’objets communicants
S. Abiteboul – INRIA Saclay
10
Les standards du Web
L’information résidait sur des iles avec des formats, des
langages de programmation, des applications, des
systèmes d’exploitations différents
Mais ça a changé avec
XML
Owl
les standards du Web
RDFS
•
•
•
•
XML : données
Xquery : requêtes
SOAP : calcul distribué
Services Web - BPEL
Owl : sémantique
SOAP
WSDL
BPEL
Accès uniforme et
universel à
l’information… S. Abiteboul – INRIA Saclay
Xquery
Xpath
11
XML et tout le spectre d’information
Minimal
structure
Hierarchy
Books
+
Contracts
Emails
Catalogs
Financial Reports
Economical Analysis
Insurance Claims
Sports News
S. Abiteboul – INRIA Saclay
Bank accounts
Insurance Policies
Derivatives
Political analysis
Financial News
Structured
Data
Meta data
Resumes
Inventory
12
Xquery (et Xpath)
Une « logique » pour des arbres étiquetés, ordonnés,
non bornés
• langage déclaratif
Inspiré de SQL: standard pour données relationnelles
Inspiré de OQL: standard pour données objet
Mélange le contenu et la structure: BD et recherche
d’information
•
•
Documents où Twingo apparait dans le titre
Langage de mise-à-jour
S. Abiteboul – INRIA Saclay
13
Services Web et calcul distribué
Possibilité d’activer une méthode sur un serveur Web
distant
(un peu Corba en moins sophistiqué)
Echange d’information en XML: input/résultat en XML
Infrastructure pour faire du calcul distribué partout
Avec XML et les services Web, il est devenu possible
•
•
D’obtenir de l’information de quasiment partout
De publier de l’information de quasiment partout
Une famille de standards: SOAP, WSDL, UDDI
S. Abiteboul – INRIA Saclay
14
Les workflows: chorégraphie de services
Wikipedia: On appelle « workflow » la modélisation et la
gestion informatique de l'ensemble des tâches à
accomplir et des différents acteurs impliqués dans la
réalisation d'un processus métier
Un workflow est un flux d'informations au sein d'une
organisation
Business Process Execution Language (BPEL), un
standards exécutable pour spécifier des interactions avec
des services Web
S. Abiteboul – INRIA Saclay
15
Sémantique: des standards émergeants
Je ne vais beaucoup
parler de sémantique
Web sémantique
Domaine très actif
Standards encore peu figés
S. Abiteboul – INRIA Saclay
16
Un accès uniforme à
l’information …
… Le rêve de la gestion de
données distribuées
17
Tendances
Plus de sémantique: Web sémantique
•
Un programme peut poser des questions précises et obtenir
des réponses précises
Plus d’interaction
•
Web 2.0 & réseaux sociaux
•
Wiki, mashups, facebook, twitter…
Applications de plus en plus
&pair-à-pair
S. Abiteboul – INRIA Saclay
distribuées
18
Et l’industrie
19
Ils font comme tout le monde
Ils utilisent
•
•
•
•
•
Google
Leurs réseaux sociaux comme Linkedin
Youtube et Dailymotion (pour la pub, la formation…)
Twitter pour le buzz
Des sites d’emploi (leur Meetic)
Ils vendent/achètent sur e-bay
Ils font des sites Webs
S. Abiteboul – INRIA Saclay
20
Ils ont leurs propres applications
Commerce: propres sites
•
•
Vendre: e-business
Achat: e-approvisionnement
Ils utilisent le Web pour informatiser leurs processus
•
•
•
Web service et workflows BPEL
Fabrication
Traçabilité
Même si ça se voit moins, ils l’utilisent énormément
•
•
Virage XML plus rapide que le grand public qui reste textuel
Virage Web service plus rapide – car ça demande des ingénieurs
S. Abiteboul – INRIA Saclay
21
Ce qui leur plait
Outils de gestion/partage de données distribuées
•
•
•
Standard d’ échanges: XML.
Possibilité de déploiement très rapide
Moteur de recherche Web
Faire baisser les coûts de développement d’applications
réparties
•
•
Outils de composition et d’orchestration de services - Web services
Outils de déploiement rapide d’applications réparties - Mashups
S. Abiteboul – INRIA Saclay
22
Ils ont des contraintes particulières
Qualité de service: performance, sécurité, disponibilité
•
Souvent inacceptable pour eux sur le Web aujourd’hui
Contrôle d’accès et confidentialité
•
•
Idem
Facebook comme réseau social d’entreprise – c’est pas sérieux
Ils commencent à trouver que l’informatique coûte cher et
aiment bien le gratuit même si
•
•
Ils ne peuvent pas se permettre le piratage
Ils n’hésitent pas à payer
S. Abiteboul – INRIA Saclay
23
Gestion d’information
en pair-à-pair
24
Gestion d’information en P2P
Content Sharing Community (CSC): Un groupe
d’utilisateurs qui partagent de l’information à l’intérieur d’un
domaine particulier
•
Exemples: Un groupes de sociétés, des scientifiques dans un
certain domaine, une association, un groupe d’amis
Problème nouveau de gestion de données
•
•
Les données sont hétérogènes et dynamiques
Les données sont distribuées
S. Abiteboul – INRIA Saclay
25
La difficulté
Arriver à faire coopérer des machines autonomes
SGBD distribués
•
•
•
Depuis longtemps un écueil de la gestion de données
Lourds à mettre en place
Nombre restreint de machine & Souvent systèmes homogènes
Pourquoi c’est devenu faisable
•
•
•
On va limiter nos exigences
On va utiliser la puissance du parallélisme
Et surtout: les nouveaux standards du Web
S. Abiteboul – INRIA Saclay
26
Pair-à-pair
Pair-à-pair: un nombre important et changeant de
systèmes coopèrent pour réaliser une tache sans aucune
autorité centrale
Pair-à-pair massif: musique en ligne avec des millions de
pairs
Pair-à-pair pas massif: gestion de données dans une
entreprise avec des dizaines de pairs
S. Abiteboul – INRIA Saclay
De bonnes raisons
pour une gestion P2P de données
Des raisons techniques
•
•
Performance
Disponibilité
Des raisons socio-économiques
•
•
•
Coût
Organisation décentralisée
Contrôle des données
S. Abiteboul – INRIA Saclay
27
28
Avantage technique:
performances
Exemple: Dans un système centralisé, plus un document
est populaire, plus ça prend du temps de l’obtenir
Avec un système P2P comme BitTorrent, c’est le contraire
Serveur saturé
Accélération
S. Abiteboul – INRIA Saclay
Avantage technique:
disponibilité
Avantages
• Plusieurs copies d’une même donnée, disponible même en cas de
•
panne
Système d’archivage et de sauvegarde en P2P
Aussi des désavantages d’un point de vue technique
• Plus complexe donc risque de pannes
• Difficile de gérer les mises-à-jour
• Difficile de contrôler la qualité de service
S. Abiteboul – INRIA Saclay
29
Avantage économique:
gestion de données à coût zéro
On utilise un système P2P gratuit
On utilise des machines existantes (pc, livebox, etc.)
On utilise les ingénieurs qui gèrent déjà ces systèmes et
leurs applications
Bien adapté au Web et sa philosophie du « tout gratuit »
• Moins que pour le grand public
• Même les entreprises s’habituent au « free »
S. Abiteboul – INRIA Saclay
30
31
Avantage économique:
bien adapté aux organisations peu centralisées
Avantages du P2P
• Pas nécessaire de trouver un leader
• Pas nécessaire de décider/imposer des règles fortes
• Possibilité de laisser chacun indépendant et autonome
Désavantages du P2P pour des organisations très centralisées
• Plus difficile d’imposer des règles fortes
• Plus difficile de garantir la cohérence des données en
présence de mises-à-jour
Bien adapté aux gros groupes avec des entités
indépendantes – même s’ils n’en sont pas encore
convaincus ☺
S. Abiteboul – INRIA Saclay
32
Mais des difficultés aussi
Complexité
•
Cause sérieuse de pannes
Difficulté de gérer les mises-à-jour
Difficulté de contrôler la qualité de service
Comportement asociaux
•
•
Spam, spamdexing & autres
Confiance
S. Abiteboul – INRIA Saclay
33
Ça n’arrive pas vite dans l’industrie
QoS
Business model pas clair
•
•
Qui paie?
Pour quoi?
S. Abiteboul – INRIA Saclay
34
Perspective de recherche
A l’INRIA
Zooms sur des sujets de recherche
35
A l’INRIA
De nombreuses équipes travaille autour du Web
Nombreux verrous technologiques
Gestion de données distribuées
Gestion de connaissance
Linguistique computationnelle
Systèmes pair-à-pair
Spécification et vérification d’applications réparties
Interface humain-machine
Etc.
S. Abiteboul – INRIA Saclay
36
3 Zooms
(sûrement moins par manque de temps)
• Surveillance du Web
• Facebook en P2P
• Artifacts business
S. Abiteboul – INRIA Saclay
37
Surveillance du Web: Fonctionnalités
Acquisition de données
•
•
•
Crawl du Web focalisé sur un domaine
Surveillance des changements: gestion de flux de données
Intégration avec les données de l’entreprise: outils LTE
Gestion de données
•
Stockage, indexation, requêtes/mises-à-jour, contrôle d’accès
Enrichissement
•
•
•
Classification, annotations sémantiques
Multilinguisme
Gestion d’ontologies, extraction de connaissances
Exploitation
•
IHM, fouille de données
S. Abiteboul – INRIA Saclay
38
Surveillance du Web: Webcontent (1)
Plateforme ANR
Entrepôt pour le Web sémantique
•
•
http://www.webcontent.fr
INRIA, CEA, Thales, EADS, Soredab, INRA, Exalead, etc.
Premières applications
•
•
•
•
Veille économique en aéronautique
Intelligence stratégique
Risque alimentaire microbiologique et chimique
Surveillance d’évènements sismique
S. Abiteboul – INRIA Saclay
39
Surveillance du Web: Webcontent (2)
Archi basée sur XML et les services Web
•
•
Services d’acquisition, enrichissement, d’exploitation
Autour d’un service de gestion de données XML
2 architectures
•
•
Archi centralisée autour d’un bus logiciel
Archi P2P autour d’un système de gestion de XML en P2P
S. Abiteboul – INRIA Saclay
40
Facebook stocke des données
personnelles
Plein d’autres systèmes également
Difficile de contrôler ce qu’ils en font
Difficile de garder mes données à jour
S. Abiteboul – INRIA Saclay
41
Facebook: Architecture
Facebook
X
Bob
Bob
XX
Sue
Sue
Sue
S. Abiteboul – INRIA Saclay
Delicious
Myspace
Gmail
LinkedIn
42
Facebook en P2P
Facebook
Facebook
Facebook
Facebook
Directes interactions
Je garde le contrôle sur mes
données personnelles
chez Bob
Proxy
Bob
Bob
Proxy
Sue
Sue
Sue
Toutes les applications qui me
concernent partagent les
mêmes données
Sue
S. Abiteboul – INRIA Saclay
•
Si je change de numéro
de téléphone, je n’ai pas
à le changer dans 100
systèmes
43
Facebook en P2P (fin)
Droits d’accès en P2P – cryptographie
Index en P2P (avec des données cryptées)
Faire tourner chez soi des applications développées par
des inconnus
S. Abiteboul – INRIA Saclay
44
Workflows centrés sur les données (1)
Artifact business: document qui représente une activité humaine
•
•
Commande, voyage, objet à construire
Évolue dans le temps suivant certaines règles
Active XML Artifacts
•
•
Modèle basé sur XML avec des appels de services imbriqués
Documents que l’ont peut s’échanger
Domaine général: workflow centré sur les données
•
•
Combine les systèmes de workflow et les systèmes de gestion de
données
Bien adapté pour des applications distribuées
Application jouet: le système de fabrication de Dell: sites
commerciaux, banques, usines, entrepôts, société livraison
S. Abiteboul – INRIA Saclay
45
Workflows centrés sur les données (2)
Quelques sujets de recherche dans ce cadre
Aide à la conception de tels systèmes
•
Vérifier que le code est conforme aux spécifications
Surveillance de tels systèmes
•
•
•
Prévoir les ruptures de stock de pièces détachés
Aider au dispatching
Détecter les disfonctionnement et en trouver les causes
Passage à l’échelle
Contrôle accès, qualité des données et confiance
S. Abiteboul – INRIA Saclay
46
Conclusion
47
Conclusion
Prévision sur le Web : il faut être très modeste
Ça va ralentir – on a fait le plus facile et on arrive aux sujets durs
• Linguistique
• Gestion de connaissances…
Ça va continuer à bouger – créativité humaine
• Web sémantique : Web de connaissances plutôt que de texte
• Web 2.0 : un Web plus interactif, plus communautaire
• Web des objets
• Web du pair-a-pair
Histoire : pour le Web, on a toujours sous-estimé la créativité humaine
S. Abiteboul – INRIA Saclay
48
Merci