Data Management - Marked Support

Transcription

Data Management - Marked Support
agement
ale aux données dans son système d’applications.
s dans le cas de la sécurité.
surer la qualité de ces futures données Big Data.
es données et des meta données
nées
ces
s
longue
oyenne
es
sation
ans MDM
a donnée
ie
our le MDM
, Customer Data Integration)
M, Product Information Management)
M, Product Information Management)
ientés objets
on
re vers les applis
ur
urces
les données à la demande
car mises à jour moins fréquentes.
requis
tier cible
on des acteurs.
nne à grand
en 3 couches
bituelle en 4 couches
e est utilisé et mieux c’est.
uement pas le droit de lier, rapprocher.
oui ou non ?
c’est un projet à long terme dont la valeur va grandir durant le temps.
mais après il va être bénéfique pour ceux qui vont l’utiliser plus tard.
ses de données
ud Big Data.
one talks about it, nobody really knows how to do it, everyone thinks everyone else is doing it, so everyone claims they are doing it… »
s concepts connus en university et entreprise depuis très longtemps.
re militaire.
essus et prendre des décisions.
ntinu.
ypothesis) -> Act (test)
n_Boyd%28strat%C3%A8ge%29](http://fr.wikipedia.org/wiki/John_Boyd%28strat%C3%A8ge%29)
n classiques qui facilitent le stockage, l’analyse et la visualisation de très importantes quantités de données non structurées ou mixtes grâce à des milliers de machines fonctionnant en parallè
bles donnés hétérogènes.
ting-big-data/
e monde ces deux dernières années.
n’est pas super come celle contenu dans facebook ou tweeter par rapport à des données métiers comme en Pharma.
actions par heure.
10 ans d’analyse. Aujourd’hui 1 semaine suffit.
e layette au père car sa fille était enceinte car elle avait un comportement d’achat de femmes enceintes.
ue : proposer une agence proche des achats du client.
es cliniques
s
BigData.
struire l’index en interrogeant des serveurs. Ces serveurs ne sont pas haute gamme : PC standards individuellement non fiables.
térêts des inetranutes pour proposer des publicités contectuelles.
lex Event Processing.
lassique
sique
et systématique et répétable. On a un objectif et on l’atteint. On compare les données structurées à une stratégie de l’entreprise.
s ce que l’on va trouver dans ces donnés. C’est du datamining. Ce qui change c’est l’ordre de grandeur et la complexité du tariotement. On va donc favoriser un déveleoppement agile. Un project flecxible s
amming et Machine learning
= Output
= Program
era la bonne prediction. Explorer des jeux de données pour créer des modèles.
rning.
oppeur et Statisticien. Et également la connaissance de ces données.
xiste pas (piloter robot sur Mars).
mettre l’expertise (reconnaissance vocale).
on à de nombreux cas particuliers (Biométrie)
visé
sé et je conçois un modèle à partir de ces données (e.g. : Listing des passagers du titanic, ).
ki/Passagers_du_Titanic
un exemple.
upervisé
s clusters (ex la fille de target qui appartient à un cluster de clients). Prendre un paquet de données et faire des tas avec.
-k.
Stanford. Andrew Ng. (Utilisation des images et des sons dans une boite de nuits. Séparation de la musique et de la discussion.)
de surapprentissage quand il y a trop de points.
moyenne, ecart type, varainec et droite de regression. Ce n’est pas suffisnat pour dire que les jeux de données ne sont pas forcément identiques.
s, il faut d’abord les regarder. Ca montre qu’un point peut tout perturber . Les outliers.
les données avant de les exploiter.
de la Dataviz. “La Datavisualisation ou Dataviz est l’étude, la science ou l’art de représenter des données de façon visuelle, via des graphiques, diagrammes, cartographies, chronologies, pictogrammes, info
tos”. La Dataviz procède à la fois d’une analyse des données et de leur représentation sous forme graphique, visant à accélérer le processus de compréhension des chiffres en sollicitant les 2 hémisphères d
nel.
sion
/
-fr/trial/tableau-software.html?cid=70160000000XIMo&ls=Paid%20Search&lsd=Google%20AdWords%20-%20Tableau%20-%20EMEA%20-%20FR%20-%20Free%20Trial&adgroup=Tableau%20-
u%20software&adused=63871552582&distribution=search&gclid=CPfOk7OntMQCFY_MtAodWxgArQ
o
/hunk/SP-CAAAH2E
ait des représentations de données en graphe.
ebefore the Mappers in Hadoop.
te-top–25-chuck-norris-the-programmer-jokes/
’est pas interactif. On ne peut pas faire d’interactif avec Hadoop.
éel avec Hadoop.
ui a remplacé MapReduc
b à mes 1000 serveurs : C’est l’étape MAP. Traitement élémentaires sur chaque site.
résultats : Reduce.
de chaque mot dans une liste de documents.
p appelé pour chaque fichier. Il va incrémenter un compteur pour chaque mot trouvé. Donc le resultat est un tableau associatif pour un fichier.
pour les 1 Millions de fichiers. Donc sur 1000 servers il y aurait 1000 fichiers traités. DOnc on a 1 millitions de tabealux associatifs
va faire la fusion de ces 1 Millions de Tableau associatifs afin de faire les sommes et obtenir un seul tableau.
aire (Map) puis synthèse (Reduce).
ent des paires clefs valeurs.
ent des paires clefs valeurs.
on map et une fonction reduce.
la programmation fonctionnelle.
s les données.
lsites et des fonctions et non pas des valeurs.
nnées partitionnées sur plusieurs serveurs. Il va parraléliser les requêtes
e.
ommande mapreduce.
ous formats Jason.
map, reduce
our la meme clefs alors ces valeurs sont stockées dans un tableau de valeurs. Partie map
eurs qui sont dans le tableau : Partie reduce.
s les mêmes colonnes pour toutes les lignes.
tées sur 3 noeuds.
comment. On va créer une clefs de répartitions comme la première lettre du nom de famille. noeuds 1, noeuds 2, noeuds 3 (N-Z). Et ensuite si on choisit les noms qui commencent par A on sollicite uniquem
duc.
File Systeme. Mais dans Hadoop c’est HDFS Hadoop File System.
aits sur le même noeud.
http://fr.wikipedia.org/wiki/R%C3%A9seau_de_stockage_SAN).
racker
ri (shuffle) et reduce
ale à utiliser. Il faut prendre les packagés par une autre compagnie. Mais là on voit les modules autres que map et reduce don
s
e.
Sandbox. C’est sympa pour l’apprentisssage pour le manipuler.
riétaire avec des modèles propriétaire.
se de données avec un sytème de fichier HDFS. On l’appelle Hbase. Il y a également Hcatalogue.
Systeme
déconseiller pour les bases de données orientées colonnes.
ée colonne.
nnées avec Colonnes dynamiques et non statiques. Notions de tableau comme valeur dans un champs d’une colonne.
colonne statiques et colonnes dynamiques.
age
p
ne fois compilé fabrique des composé MapReduce.
Brasser de la données dans des longs scripts.
on CRM. Extraction des tweets. Fusion des deux tables. Jointure des deux fichiers à écrire en Pig. On peut faire des itérations pas dispo dans le language SQL par exemple.
tif.
n table orienté décisionnel qui se stock dans HDFS. A la différence de Pig c’est du casi SQL et reqête les données dans l’entrepôt Hive. Ca compile les requêtes en MapReduc. Sélection très compétitive de s
tif.
à la main soit je prends Pig et Hive. et ils sont pas sorciers
educe
ource
ts
érence pour le Machine Learning.
ue sur le le disque. On fait du microbatch. mais il faut redévelopper les bibliothèques.
arning
er Science ».
es données quand on les stocke.
gémonie des SGBDR.
stockage et de bases de données non relationnelles.
es sont performantes en lecture. Les opérations debits crédits sont dans une base SQL avec des transactions (commit, rollback).
s les années 2000
e Pb des SGBDR
onnées
on.
ale
urs.
s.
s grosse machine
Plus de machines donc plus compliqué à gérer puisque la base de données ne peut travailler sur plusieurs noeuds. Seul une édition de Oracle peut faire cela. Les bases de données SQL ne pe
cédentes.
ont un schéma donc très rigide pour être modifiées. Contrariété avec le MDM qui est très rigide.
c des technologies agile.
que le stockage de chez Oracle.
s les années 2010
on standartds et moins riches que SQL
actionneles : Pas de commit et callback
ées au archiectures 00.
ume
pas de schéma (contraire aux principes du MDM et de la cohérence des données en entrprise et de la donnée primaire des entreprises.
de données qui a les trois propriétés suivantes.
nformation est disponible sur un autre noeud.
nel. Donc c’est le principe des SGBDR. C’est ce que les bases de données No-SQL ne sont pas.
oeuds. Propriétés principale des des bases de données No-SQL.
ns
om. Elle adressesent des problèmes non résolues
ene.
elle (ACID).
lité.
TEST.
bedded.
?
aite d’un ensemble d’objets dont certains sont connectés par des liens.
k.
omplexe à utiliser.
as de noeuds maîtres et de spof.
Base
Bien pour apprendre les bases de données No-SQL.
méfier. AGPL.
json. Tous les champs sont au même endroit.
ckage et le front end. Tout est en Jason. MongoDB -> Node.js -> Frontend.
oDB à partir d’une base de données relationnels. La SGBDR permet d’assurer la consistence avec son schéma.
un schéma entre le développeur et la base de données.
éer des webservices très rapidement. C’est performant mais ca contient plein de callbacks.
serveur acr il est basé sur le moteur javascript V8 de chrome.
Deux fork. MEAN IO et MEAN JS.
cile car ce n’est pas encore mature. Mais les starts up et les géants du wen n’utilise plus Java mais javascript.
et Node.js. Le futur est dans le javascript.
mentalités. AngularJS ne marche pas sur IE6, IE7 et IE8.
ngular JS qui va s’imposer.
hno côté serveur. Les formats des navigateurs ont imposé leur techno.
données colonnes qui l’emporte. Donc sur Hadoop on prfere HBase à MongodDB. Mais MongoDB est très simple à utiliser. le succès de MongoDB c’est sa simplicité.
ommande find.
noeuds.
rendre disponible.
le only. Utiliser en mobile, web et Big Data.
utilise le protocol http. Donc exposé sur Internet. Mais pas bon sur la sécurité Internet.
ont du big data.
n aspect collabortaif.
sans alors pig et hive seront grisés).
à l’exportation. ca fonctionne comme photoshop.
ques qui ensemble font une recipe pour traiter les jeux de données.
ivité. C’est le studio de développement big data. Il a des modules qui ressemblent à un ETL.
.
Software et Tibco Sportfire.
on.
ez vous amuser avec cela.
que c’est un ETL orientée Big Data.
s.
iversitaire.
contenu.
de données. C’est pas fait pour faire des calculs.
de montagnes de données. C’est le complément des plateformes Hadoop.
rs car il y a de Grande formations en France : Exalead, Sinequoa, Antidote, policedot
ire du calcul.
rsé
lequel il apparait et la position dans le document.
marché.
essus de solaire.
upes en Europe.
nnels
blement couplées entre les autres.
nt pris les monuments, les lieux et rf en France.
e du MDM
Lambda
re.
as mature.
du temps réel sur le Big Data.
qui est fonction de votre état d’humeur déduite à partir de vos tweet et retweet.
n de l’opinion ne sont plus le 20H dont kle contenu est fabriqué par les journalistes mais les caneaux sociaux (facebook, tweeter, doctissimo). Il faut trouver ceux qui font écho. La gestion de ré
ux sociaux pour comprendre et controler l’opinion en temps réel.
venements qui vont arriver.
e et maintenant il faut pousser les infos vers différents canaux.
ste commercial de la banque.
ste commercial de la banque.
ux sociaux utiles à utilser pour les hommes politiques.
Big Data
Voir slides exemple. Il faut se rappeler que l’on travaille sur des batchs !!! Il n’y a pas de transactions sur le Big Data. Il y a que de la lecture. C’est de l’écriture.
r les ETLs comme TALEND.
ment du décisionnel mais un complément du transactionnel.
e
ur vos données pour remonter l’info rapidement. On peut coupler un moteur de recherche à une plateforme Big Data. Le moteur ne pourra pas faire de calculs sur vod données.
s il faut avoir du SQL
données
utilise MapReduce.