Livre Blanc DataScience

Transcription

Livre Blanc DataScience
LES ROLES DANS
LA DATA SCIENCE
ASTRAKHAN LAB RESEARCH
TABLE DES MATIERES
Les rôles dans la Data Science
1
Les profils métiers
2
Les profils techniques
6
Pilotage & gouvernance
8
Les profils back-end
10
En synthèse
12
Où trouver les profils ?
16
AUTEUR
François Rivard
RELECTEURS
Albert Bendayan
Séverin Legras
RESPONSABLE OFFRE DATA SCIENCE
Iarantsoa Rafitosoa
RESPONSABLE LAB RESEARCH
Yacine Ouadahi
PREAMBULE
LES ROLES DANS LA DATA SCIENCE
En quelques mois, le Big Data est devenu le
nec plus ultra de l’industrie informatique. Dans
une
économie
où
le
terme
de
« personnalisation de masse » acquiert une
signification et des capacités nouvelles, les
notions de Good Data et de Data Science
semblent progressivement s’imposer. Mieux
anticiper le comportement des clients,
découvrir et utiliser à ces fins de vastes
réserves et gisements de données internes et
externes, y parvenir par la construction
d’architectures caractérisées par un vaste
assemblage de technologies restent des
réalités incontournables.
Les modalités par lesquelles les entreprises
peuvent en bénéficier se précisent chaque jour
davantage. Se pose notamment la question
des profils et compétences qu’il est nécessaire
de réunir pour mettre en œuvre ces platesformes et assurer autour d’elles une animation
cohérente et pérenne. Le but est d’utiliser les
données internes et externes, structurées et
non structurées, pour gagner en compétitivité
et prendre des décisions éclairées et parfois
disruptives. Pour atteindre ce but, l’entreprise a
besoin de former son équipe Data Science,
avec des compétences précisément identifiées
et avec des rôles clairs.
Quelles définitions de postes trouve-t-on
aujourd’hui sur le marché ? Quels rôles et
responsabilités pour les profils identifiés ?
Comment les entreprises peuvent-elles
construire une équipe Data Science et
comment celle-ci évolue-t-elle dans le temps ?
Vous trouverez toutes les réponses à ces
questions dans ce livre blanc.
ASTRAKHAN LAB — LES ROLES DANS LA DATA SCIENCE
Page 1
PARTIE 1
LES PROFILS METIERS
Les profils Métier forment la première des trois catégories de profils que l’on
trouve autour de la Data Science, avec les profils Technologique et les
profils de Gouvernance. On y trouve deux principaux rôles : l’Analyste de
Données et le Data Scientist.
L’ANALYSTE DE DONNÉES
Avant d’évoquer le rôle de l’analyste,
commençons par préciser ce que l’on entend
par l’analyse des données.
Dans le cadre d’une recherche ou d’une
expérimentation, il s’agit d’une étape qui
consiste à évaluer les données via un
raisonnement analytique et logique. Les
données provenant de différentes sources sont
réunies, revues puis analysées pour produire
des conclusions ou mener à des découvertes,
par l’utilisation de différentes méthodes dont
les plus connues sont le Data Mining, le Text
Analytics, la Business Intelligence et la Data
Vizualisation.
Ce travail donne également l’occasion d’un
examen complet de chaque composante des
données fournies.
L’analyste de données (Data Analyst dans la
terminologie anglo-saxonne) est ainsi celui qui
se spécialise dans ces travaux : collecte,
organisation et analyse pour mise à disposition
dans le cadre d’analyse plus « industrielles ».
Le mot « Analyst » doit-il ainsi s’entendre dans
sa signification anglo-saxonne. Il est le
défricheur, le découvreur, une sorte de superlaborantin, tout comme dans des cabinets tels
que Gartner Group ou Forrester Research ;
quelqu’un capable de comprendre les
tendances d’un secteur d’activités ou d’un
domaine technologique et de recenser les
entreprises qui en forgeront demain la
dynamique et le visage. Dans le cycle de
l’innovation, il est au Front-End et il enquête
plutôt seul ; il mettra plus tard ses résultats en
commun avec ses pairs.
Il n’a pas à proprement parler un profil Système
d’Information. Il est tourné vers le Métier, mais
l’ensemble des articles que nous avons pu lire
sur ce profil le montre naturellement en
interface constante avec les équipes IT,
notamment avec les gestionnaires et
administrateurs de bases de données. Sans
être technicien lui-même, il doit se montrer
capable d’orienter le travail technique afin de
pouvoir se connecter aux sources de données
souhaitées et d’en puiser le contenu nécessaire
à ses investigations.
En fonction de la nature des données et du
secteur concerné, une connaissance des
procédures règlementaires est appréciée, de
même que la capacité à définir des projections
et des tendances. À ces conditions, l’analyste
de données pourra également participer aux
étapes menant à la production d’une étude ou
d’une enquête, ou à la production d’une
synthèse accompagnant un rapport. De facto,
la capacité de rédaction est considérée comme
une compétence complémentaire intéressante.
Dans l’échiquier de la Data Science, le Data
Analyst est un profil qui compte 3 à 8 ans
d’expérience et qui peut évoluer ensuite vers un
rôle de Data Scientist.
ASTRAKHAN LAB — LES ROLES DANS LA DATA SCIENCE
Page 2
LE DATA SCIENTIST
Le Data Scientist (terme que, contrairement à
celui de Data Analyst, on ne traduira pas, le
terme semblant s’être figé dans cette
formulation au profit d’un hypothétique
« Scientifique des Données » certainement
moins vendeur) reste LA fiche de poste qui
résume à elle seule toute l’effervescence
parfois frénétique qui règne autour du Big
Data. La célèbre revue Harvard Business
Review, déjà mentionnée dans ces lignes, ne
l’a-t-elle pas non seulement décrit comme un
job « sexy », mais aussi rien moins que comme
« le job le plus sexy de tout le vingt-et-unième
siècle » ? Difficile de faire mieux côté buzz…
Un buzz savamment entretenu, relayé, amplifié
dans la presse via une pléiade d’interviews
réalisées auprès de dirigeants principalement
américains et dans lesquelles on peut y lire que
les profils disponibles sur le marché ne
couvriraient encore que 20% des besoins des
entreprises.
Une telle rareté, permettant de prétendre à des
niveaux de rémunération élevés, en pousserait
plus d’un à se prétendre Data Scientist. C’est ce
qu’affirme Scott Gnau, président de Teradata
Datalab : « Il existe certainement un paquet de
personnes qui savent épeler sans faute le mot
Hadoop, coller ça habilement dans leur CV et
tranquillement prétendre être Data Scientist.
Rien n'est pourtant plus éloigné de la réalité. Il
est indispensable pour notre industrie de définir
précisément ce terme ». Plutôt que d’être pris
de vertige, posons-nous simplement
question : de quoi au juste parlons-nous ?
la
Selon la lettre, le Data Scientist est un profil de
très haut niveau, capable de répondre à des
exigences Métier critiques en naviguant dans
d’impressionnants volumes de données et en y
détectant des corrélations cachées. En se
concentrant sur les bonnes données (celles qui,
reliées ensemble, donnent du sens), il créerait
ainsi de l’information et des modèles aptes à la
prédiction.
Le Data Scientist devrait consacrer son temps
et son énergie à l’identification de résultats
analytiques pour les enjeux Métier critiques, ce
qui peut s’énoncer en d’autres termes : à
transformer les données en information,
l’information en connaissance et en idées, et
les idées, valorisables et applicables, en prise
de décision et en stratégies innovantes. On
conçoit aisément qu’il s’agisse d’un profil à très
forte valeur ajoutée, doté d’une large vision,
d’une connaissance précise du métier de
l’entreprise.
Le terme de Scientist doit se comprendre dans
sa signification anglo-saxonne tirée du lexique
scientifique : plus que « Scientifique »
finalement, c’est le « Savant », qui se distingue
de l’ « Analyste » par son expérience et,
précisément, par sa science. Ce constat
pourrait justifier que le terme n’ait finalement
pas été traduit.
ASTRAKHAN LAB — LES ROLES DANS LA DATA SCIENCE
Page 3
LE CHARISME DU DATA SCIENTIST
Selon Scott Gnau, président du Teradata Datalab, la fiche de poste
complète d’un Data Scientist s’articulerait autour de trois
catégories de compétences :
STATISTIQUES
Un rôle proche de celui de l’analyste de données,
TECHNOLOGIQUES
L’écriture d’algorithmes et de code capables de traiter les vastes
volumes de données,
ARTISTIQUES & EXPLORATOIRES
Des personnages hautement créatifs et curieux dont le propre est
de savoir naviguer quasi-intuitivement dans le contenu pour y
vérifier la véracité de leurs intuitions.
Ce dernier point concentre le charisme du Data Scientist : un
fascinant côté « eurêka », un panache à clamer « confiez-moi
l’océan que j’y tamise vos pépites », une facilité à y consacrer
d’autant moins d’efforts que le talent est grand.
Tout cela rapproche le Data Scientist, pour le mystère qui entoure
ses capacités à corréler intuitivement des informations à priori
sans rapport, pour l’attractivité qu’il opère vis-à-vis de l’entreprise
et pour la valeur qu’il lui apporte, du trader en salle de marché.
Alors, pour toutes ces raisons, et tant que de potentielles dérives
n’auront pas été constatées, quelle entreprise ne rechercherait pas
à s’entourer de tels hommes providentiels ?
ASTRAKHAN LAB — LES ROLES DANS LA DATA SCIENCE
Page 4
PARTIE 2
LES PROFILS TECHNIQUES
Si la compréhension des données et l’art intuitif d’y naviguer restent
l’apanage de profils davantage tournés vers le métier, il n’existe pas de
Data Science sans technologie. Des rôles davantage ancrés dans la
connaissance technique des données et des moyens d’y accéder viennent
donc épauler les premiers. Ainsi que nous allons le voir ci-dessous, ils ne
sont pas pour autant ravalés au rang de seconds rôles.
DATA ENGINEER
L’ingénieur de données est celui des rôles qui
se préoccupe le plus des systèmes applicatifs
autour de la gestion de la donnée et du
traitement de la donnée elle-même. Il va ainsi
gérer un cycle global qui couvre la collecte, le
stockage et l’exploitation de la donnée.
Il supervise la construction des vastes
ensembles de données et effectue des requêtes
sur ceux-ci de manière à s’assurer de la
pertinence des réponses et proposer des voies
d’amélioration. Il teste et éprouve les systèmes
en permanence.
Dans un monde connu, on l’aurait
probablement déjà qualifié d’administrateur de
bases de données, mais les technologies
évoluant, les sources de données et les formats
se multipliant, lui aussi se diversifie tout en se
rapprochant du contenu et du métier.
Ce n’est pas tout : il doit posséder un sens de la
vision, des qualités de communication
certaines, des compétences en programmation
et, pour reprendre une expression trouvée sur le
site how.com, « un flair mathématique1 ».
Pour cette raison, on attend généralement de
ce rôle qu’il possède un certain degré
d’expertise technique dans la collecte
automatique des données et dans les systèmes
de reporting, y compris dans la capacité à
interpréter et à résoudre les problèmes de
fonctionnement.
Dans une architecture Big Data, les ingénieurs
de données sont les designers, les
constructeurs et les managers de l’information.
Ils développent l’architecture qui aide à
analyser et traiter les données telle que
l’organisation en a besoin. Et ils s’assurent que
les systèmes fonctionnent de manière fluide.
1 Cette conviction nous a conduit, chez Astrakhan, à construire la Pépinière qui forme des architectes de système d’information par un
parcours d’expérience précisément décrit aboutissant à une collection de « badges » et à une certification.
ARCHITECTE DATA SCIENCE
Au centre de la composition se trouvent les
architectes Data Science aux compétences
nécessairement multiples : puisque Wikibooks
présente la Data Science comme « un mashup
de disciplines », rien d’anormal à ce que
l’architecte Data Science, au carrefour de
questions technologiques vastes et complexes,
se caractérise presque comme un mashup de
compétences.
En effet, il lui est nécessaire de maîtriser tout
aussi bien les techniques de médiation et de
connexion à toute source de données internes
et externes que le paramétrage d’un stockage
de masse dans des bases de données noSQL,
éventuellement en mode Cloud, ou encore les
architectures de Business Intelligence, incluant
le Data Mining ou la Data Vizualisation. Il
synthétiserait presque à lui seul vingt ans de
compétences en architecture tant il se
positionne au centre du système d’information.
Cependant, comme il ne peut prétendre à
maîtriser seul l’ensemble des technologies et
des sources de données sur lesquelles ses
constructions s’appuient, il fait reposer une
partie de son expertise sur le Data Engineer. Il
existe ainsi une articulation entre l’architecte
Data Science et le Data Engineer de même
nature que celle évoquée plus haut entre le
Data Scientist et le Data Analyst : au premier le
recul et la vue de haut niveau, au second
l’expertise et la connaissance intime des
moyens. Et de la même manière, les rôles
auront tendance à être distincts dans les
grandes organisations, alors que dans des
organisations plus ramassées, ils pourront être
confondus.
L’architecte Data Science est aussi un
architecte de système d’information, soit
quelqu’un qui sait traduire les exigences,
fonctionnelles comme non fonctionnelles, en
éléments
d’architecture
fonctionnelle,
applicative et technique en s’appuyant, le cas
échéant, sur des actifs concrets d’architecture
d’entreprise. L’aspect fonctionnel ne doit pas
surprendre, si on garde en tête que les
architectures
de
données
nécessitent
généralement une bonne compréhension du
métier. En tant qu’architecte, il conserve
néanmoins les deux pieds ancrés dans la
technique.
Il permet à un produit prototypal d’évoluer
progressivement
vers
une
plate-forme
industrielle. Si on les replace dans un processus
d’innovation, on pourra le voir comme une
courroie de transmission entre le Front-End, où
œuvrent le Data Scientist et son équipe
d’analystes, et le Back-End, où s’activent des
profils plus « traditionnels » dédiés à un
management
plus
organisé,
plus
« industrialisé », de l’information.
Il produit un ensemble de recommandations
technologiques et d’infrastructure en bâtissant
les architectures de données de manière à ce
qu’elles soient performantes et évolutives. Il
maîtrise toute la chaîne de liaison applicative
entre les différents constituants d’une
architecture Big Data, en déterminant
notamment quels usages autorisent une
personnalisation de celle-ci vis-à-vis de
l’architecture de référence.
Il assure une véritable autorité en la matière
vis-à-vis des profils Métier et Technique et doit
être perçu comme un leader incontestable sur
son
champ
d’intervention,
en
raison
notamment des frontières encore parfois floues
qui définissent encore parfois les contours de
ce domaine. Il donne ainsi une visibilité sur les
spécificités d’une architecture Big Data vis-à-vis
d’implémentations plus « traditionnelles » de
Business Intelligence, et veille aussi à garantir
une continuité dans les mécanismes employés
sur ce domaine lorsque rien ne justifie
réellement de s’en émanciper.
PARTIE 3
PILOTAGE & GOUVERNANCE
Le pilotage et la gouvernance du domaine Data Science sont assurés par
deux rôles : le chef de produit Data Science et le Chief Data Officer.
LE CHEF DE PRODUIT DATA SCIENCE
Le chef de produit Data Science peut être
considéré comme un coordinateur des activités
menées en Front comme en Back. Il pilote le
portefeuille d’initiatives et de projets,
fonctionnels comme techniques, relatifs au
déploiement et à la généralisation des
initiatives Data Science. Il relaie la vision
stratégique du management sur le terrain et
assure un alignement constant de la vision et
du terrain.
Plus qu’un responsable de projet au sens
habituel du terme, son rôle consiste également
à permettre et à entretenir durablement une
relation profitable entre les profils fonctionnels
et les profils technologiques, de manière à
assurer la réutilisation des actifs construits
dans le cadre des expérimentations et de la
généralisation.
Il donne ainsi une visibilité complète à tous les
acteurs sur les initiatives en cours de
construction, et garantit par-là l’animation et la
dynamique de l’initiative Data Science dans
l’entreprise. Un rôle-clé, peut-être un peu sousestimé, à mi-chemin entre le Project
Management Officer (PMO) et le gestionnaire
de portefeuille (Portfolio Management).
Pour l’ensemble de ces raisons, on n’hésitera
pas à qualifier ce rôle d’agile, a fortiori dans un
contexte où la part d’innovation et de
rechercher milite pour une résolution itérative
des zones d’incertitude. La segmentation des
activités et des rôles telle qu’elle est présentée
dans ce document bénéficiera de pratiques
agiles telles que Scrum ou le Lean Startup,
parfaitement applicables dans le contexte de la
Data Science.
Enfin, le chef de produit Data Science assure la
promotion de la plate-forme et, via des actions
de communication ciblées en interne et en
externe, la multiplication des initiatives Data
Science dans l’entreprise.
Le chef de produit Data Science reste avant
tout un rôle front-end, contrairement à celui de
Chief data Officer, transverse du Front au Back.
LE CHIEF DATA OFFICER
Aux côtés des Data Scientist, Data Analyst ou
autres Data Engineer vantés par les notes
d’analyse en provenance d’outre-Atlantique, on
trouve en France, présenté par l’ANDSI
(Association Nationale des Directeurs de
Système d’Information), la promotion du rôle
de Chief Data Officer ou CDO.
Le Chief Data Officer est responsable de la
gouvernance des données et de leur utilisation
en tant qu’actifs de l’entreprise. Il se situe
davantage au croisement de la gouvernance
des données, du Master Data Management et
de l’analyse quantitative. Il est en charge de
l’amélioration continue des processus autour
de la gestion de l’information.
Il se positionne ainsi à la droite du DSI, lorsqu’il
n’est pas DSI lui-même : tout dépend en fait de
la taille de l’équipe Data Science et de celle de
l’entreprise elle-même. Pour citer Pierre Delort,
président de l’ANDSI : « il est assez naturel et
légitime qu’en phase d’initialisation de la
fonction de CDO, ce soit le DSI qui assure le
leadership de cette mission. En effet, la
fonction de DSI est transversale et caractérisée
par une proximité avec les équipes en charge
des datawarehouses qui disposent des
meilleures connaissances sur les données. ».
Par la suite, le DSI serait amené à passer la
main à un CDO spécialisé sur son rôle, et qui
aurait pour mission de se positionner comme
leader des rôles de Data Analysts, Data
Scientists et autres Data Engineers. Le chef des
« quants », en quelque sorte.
En tant que responsable exécutif, le Chief Data
Officer aurait également des prérogatives
financières. Pour citer à nouveau Pierre Delort :
« il est le seul à pouvoir résoudre la quadrature
du cercle autrement dit prouver le ROI et
mesurer l’impact de nouveaux usages et
comportements dans le cadre de réseaux
sociaux d’entreprise et plus globalement dans
la perspective de projets entreprise 2.0 ou
social business ». Sur ce dernier point,
l’argumentaire reste cependant moins détaillé
et de facto moins convaincant.
PARTIE 4
LES PROFILS BACK-END
Les rôles présentés dans les points 1 et 2 font apparaître une composante
créative, de l’intuition, une dimension d’analyse qui caractérisent des
travaux de recherche. Dans la chaîne de l’innovation, on les désignerait
comme faisant partie du front-end de l’innovation. Au back-end se trouvent
des rôles davantage dédiés au go-to-market, ce qui, dans notre contexte,
s’apparente à des travaux de stabilisation et d’industrialisation des activités
menées en avant par le front-end. Ces profils back-end sont présentés dans
le paragraphe qui suit.
L’ARCHIVISTE DIGITAL
Il se concentre sur l’acquisition, le stockage et
la conservation des données digitales qui
forment un gisement d’information à part
entière.
LE CONSEILLER JURIDIQUE
Il assure notamment la vérification des droits
d’utilisation de l’information et s’assure du
respect des contraintes règlementaires.
LE GESTIONNAIRE D’INFORMATION
Il assure la promotion, l’accès, l’organisation,
l’utilisation et l’archivage de l’information au
sein de l’entreprise. Il est le pendant Back-End
du chef de produit Data Science au Front-End. Il
nourrit nécessairement un lien avec le CDO ou
avec le CIO en fonction de l’organisation
adoptée.
L’INFORMATION STEWARD
Il est aussi connu sous le nom de Data
Steward, mais avec la prolifération des formats
et des volumes de données, son périmètre
s’adresse désormais à une catégorie plus
vaste. Il a pour mission de fédérer les processus
autour de l’information dans l’entreprise. En
cela, il se pose comme un correspondant du
gestionnaire d’information, si ce dernier rôle
n’est pas directement tenu par le CDO.
LE DATAVIZ DESIGNER
Il assure la part de finition graphique du travail
des analystes de données et du Data Scientist.
Il confère aux efforts de ceux-ci une ergonomie
et une attractivité proche de celle des
infographies que l’on trouve désormais partout
sur Internet.
PARTIE 5
EN SYNTHESE
Des six profils passés en revue ci-dessus, il ressort des niveaux d’expérience
différents qui peuvent conduire à des relations hiérarchiques, et définissent
une certaine pyramide des rôles et des capacités d’évolution par filière.
TITRE
ACTIVITES
EXPERIENCE
ÉVOLUTION
DATA ANALYST
Analyse des données
3 à 8 ans
Data Scientist
DATA SCIENTIST
Réponse aux enjeux métiers
6 à 15 ans
Data Trader
Chef de produit Big Data,
Chief Data Officer
DATA ENGINEER
Accès aux sources de données
0 à 8 ans
Architecte Data Science
ARCHITECTE
DATA SCIENCE
Construction d’architecture Data
Science d’entreprise
5 à 12 ans
Directeur de
l’architecture
Directeur des études
CHEF DE PRODUIT
BIG DATA
Management du portfolio Data
Science
3 à 15 ans
Chief Data Officer
Directeur des études
CHIEF DATA
OFFICER
Gestionnaire de l’information
front-end (Data Science) et
back-end
12 à 20 ans
CIO
Graphiquement, et si l’on y ajoute les rôles back-end, une organisation autour de la gestion de
l’information, incluant la partie Data Science, pourrait ressembler au schéma ci-dessous
:
— ORGANISATION AUTOUR DE LA GESTION DE L’INFORMATION —
A noter que le Data Engineer et l’architecte
Data Science se situent, ainsi que le représente
le schéma ci-dessus, à l’intersection des deux
domaines et assurent ainsi un lien
technologique entre front et back qui garantit
l’homogénéité d’une plate-forme Data Science
d’entreprise.
En termes de mise en place, nous distinguons
trois niveaux de maturité qui correspondent à
trois phases : le lancement (ignition), le
décollage (take-off) et la vitesse de croisière
(full throttle).
IGNITION
TAKE-OFF
Le CDO est le CIO
L’architecte d’entreprise devient
CDO et CIO sont devenus deux
progressivement
rôles distincts.
Un Enterprise Architect vient
cartographier l’architecture des
données
Data Analyst et Data Scientist
sont un seul et même rôle
Data Engineer et Architecte Big
Data sont un seul et même rôle.
Un architecte BI avec un feeling
métier et l’envie de monter en
compétences sur de nouvelles
technologies est nommé.
FULL THROTTLE
CDO.
Il
commence à organiser la partie
Back-End.
CDO
et
Data
Scientists
travaillent en parfaite intimité
La partie Front-End se met en
pour élargir le patrimoine de
place avec les outils adéquats.
données
Un
monétiser
chef
de
produit
Data
Science est nommé.
de Data Analyst commencent à
se spécialiser.
de spécialistes des technologies
directement
Search…).
Scientists
et
nouvelles
Certains
Data
deviennent
Data
Traders.
Le chef de produit Data Science
L’architecte Big Data s’entoure
ne
l’entreprise
les
opportunités.
Les rôles de Data Scientist et
qu’il
de
maîtrise
pas
(Médiation,
assure la
promotion
et la
généralisation de la plate-forme
dans l’entreprise.
L’équipe
d’Architectes
Data
Science et de Data Engineers
devient un bureau d’architecte
qui
couvre
la
partie
Data
Science, BI, médiation et Cloud.
Ces scénarios sont dépendants de la taille de
l’organisation. La façon dont les rôles sont
initialement confondus, puis se distinguent au
fur et à mesure que l’initiative prend de
l’ampleur, fait écho à la taille de l’entreprise :
plus l’organisation est étendue, plus les rôles
auront tendance à se segmenter. À l’inverse,
moins l’organisation est grande, et plus les
rôles auront tendance à rester mêlés dans la
durée. On recensera ainsi dans ces dernières
des compétences plus généralistes et moins
spécialisées.
PARTIE 6
OU TROUVER LES PROFILS ?
Pour toute entreprise désireuse de se lancer dans la Data Science, la palette
de rôles que nous décrivons ici génère inévitablement la question du
sourcing. Où trouver des compétences aussi pointues et diversifiées ?
LE CAS DU DATA SCIENTIST
La fiche de poste d’un Data Scientist, à elle
seule, tire un arsenal de compétences variées
et pas toujours facile à réunir en un seul
cerveau. Faut-il se résoudre à court terme à
voir le Data Scientist comme une étiquette qui
regrouperait
plusieurs
personnes aux
compétences complémentaires ?
Ces profils existent : nous les rencontrons, nous
pouvons même leur parler ; à ceci près que la
combinaison de savoir-faire qu’ils décrivent
reste encore denrée rare. Si l’on doit évoquer la
question de leur formation, on comprend :


que ces moutons à cinq pattes ne
peuvent encore provenir que d’une
formation spécifique et plutôt inédite à
l’heure où nous écrivons ces lignes.
Toujours selon Scott Gnau de Teradata,
chacun des profils recensés ci-dessus
nécessiterait à lui seul une formation
spécifique.
qu’il est nécessaire qu’ils se confrontent
quelque temps au rôle d’Analyste de
Données avant de devenir de vrais
Data Scientists, tout comme un Data
Engineer a besoin de rouler un peu sa
bosse avant de se poser comme un
véritable Architecte Data Science.
Pendant la phase d’ignition, l’analyste de
données et le Data Scientist resteront
vraisemblablement deux rôles confondus. Cela
signifie que les entreprises vont accepter, dans
un premier temps, de travailler avec des Data
Scientists « en formation ». Ce scénario,
acceptable, décrit une phase de transition qui
durera deux à trois ans avant que des Data
Scientists de formation
n’arrivent sur le marché.
et
expérimentés
En France, certaines entreprises pourraient
s’inspirer de ce qu’IBM annonce mettre en
place aux Etats-Unis, à savoir des partenariats
avec différentes universités en vue de financer
la formation de profils Big Data à court et
moyen
terme.
Astrakhan
travaille
à
l’établissement d’un tel plan de formation et a
pris contact avec différentes écoles et
universités en vue de mettre en place un cursus
de ce type.
Quelles seraient les caractéristiques d’un tel
programme de formation ?
Un
bagage
certain
en
sciences :
mathématiques
appliquées,
statistiques,
économie, économétrie,
Une connaissance approfondie du marketing
stratégique, du marketing produit, de la relation
client, et des idées en termes de valorisation du
patrimoine de données et de monétisation des
actifs,
Des notions avancées d’architecture Data
Science : connexion aux sources de données,
stockage dynamique à gros volumes, analyse
sémantiques, connaissance de l’Open Data,
mise à disposition de l’information auprès des
consommateurs de données,
Une vraie maîtrise des techniques et solutions
de visualisation de données, puisque la
facilitation visuelle est à l’origine d’une partie
de l’émergence des idées.
Cet inventaire décrit une formation à michemin entre l’école de commerce et l’école
ASTRAKHAN LAB — LES ROLES DANS LA DATA SCIENCE
Page 16
d’ingénieur. Des formations croisées, du type
de celle qu’ont mis en place HEC et Mines Paris
sur
le
management
des
systèmes
d’information, pourrait couvrir l’intégralité du
périmètre.
Fraichement sortis de l’école, il manquera
encore à ces diplômés, certainement très
courtisés, la connaissance du monde de
l’entreprise, et cela sans compter sur une
spécialisation
verticale
qui
semble
incontournable pour comprendre les données
manipulées par un secteur. Le stage avec
embauche semble ainsi proposer une réponse
intéressante, tout comme l’alternance pour les
profils déjà
reconvertir.
aguerris
qui
souhaitent
se
À court terme, les entreprises vont d’abord
chercher à faire évoluer des compétences
existant dans leur effectif et à les faire évoluer
progressivement vers la Data Science, au
moyen de formations ciblées. L’arrivée
progressive de générations natives à la Data
Science devra s’opérer dans le respect de
l’organisation en place, mais avec le souci de
bénéficier des idées nouvelles et de la valeur
que les « petits nouveaux » apporteront dans
leurs bagages.
LE CAS DE L’ARCHITECTE DATA SCIENCE
Le cas de l’architecte Data Science, autre rôle
clé, est légèrement différent. Un architecte
expérimenté dispose déjà généralement d’une
palette de compétences autour de plusieurs
technologies et domaines.
De plus, on ne forme pas un architecte : un bon
architecte est souvent le fruit de plusieurs
années passées sur le terrain
La Data Science étant une combinaison de
domaines, l’entreprise doit pouvoir capitaliser
sur des hommes disposant déjà d’un savoirfaire sur un ou plusieurs domaines de la Data
Science. Si l’architecte n’est pas lui-même
pointu sur tous les sujets, il pourra s’appuyer
sur les connaissances d’un Data Engineer
spécialisé.
LES SOLUTIONS TECHNOLOGIQUES
La compétence et le talent sont certainement
deux qualités incontournables pour faire un bon
Data Scientist. Il n’empêche qu’ils ne peuvent
se départir de solutions de qualité. Si l’on garde
à l’esprit le volume de données mis en jeu,
peut-on réellement considérer qu’un Data
Scientist saura faire son travail avec une
solution de mauvaise qualité ? Cela semble
compromis. Sur quel type de solution un Data
Scientist peut-il s’appuyer pour stimuler sa
créativité ?
ASTRAKHAN LAB — LES ROLES DANS LA DATA SCIENCE
Page 17
PARTIE 7
CONCLUSION
Issu du monde anglo-saxon ou de nos latitudes,
les rôles qui émergent autour de la Data
Science ont tous pour effet de positionner la
donnée au centre du système d’information et
de l’entreprise. Cette lame de fond n’est peutêtre finalement rien d’autre que la volonté de
faire la place à une nouvelle catégorie de
manager qui serait en prise directe avec
l’analyse quantitative et laisserait de moins en
moins d’espace à une prise de décision fondée
sur l’intuition et l’expérience, sans pour autant
(et c’est tout l’intérêt du Big et des modèles
prédictifs) céder la place à la disruption et à
l’innovation. L’exemple de NetFlix et de sa série
phare House of Cards est ainsi évocateur à plus
d’un titre. NetFlix est à l’origine un distributeur
américain de films et de séries en streaming,
qui décide de se lancer dans la création
originale via la réalisation d’une série. Par des
algorithmes d’analyse des données laissées par
ses 30 millions d’abonnés, l’entreprise identifie
qu’une série politique tournée par David
Fincher avec Kevin Spacey serait la bonne
formule. NetFlix lance la réalisation de deux
saisons sur la base d’analyse dont la justesse
est récompensée par le succès d’House of
Cards. L’analyse quantitative au service de
l’intuition et de l’innovation : lancer une série
d’envergure au nez et à la barbe des
mastodontes du secteur est un acte courageux
et disruptif.
Se baser sur l’analyse quantitative est une
façon comme une autre de limiter son risque et
de rentabiliser l’investissement. Il en va
également ainsi de la Data Science dans le
sport de haut niveau : elle aide à mieux
comprendre et à être plus efficace. Elle ne
garantit pas pour autant le gain des matches.
Elle conservera toujours une inévitable part
d’incertain même si, au final, la prise de
décision sera certainement meilleure.
Les générations de managers capables de
fonctionner efficacement dans ce mélange de
certitudes et d’absence de garanties définiront
demain toute la valeur que l’entreprise agile et
adaptative est capable de générer pour ellemême et pour ses clients.
ASTRAKHAN LAB — LES ROLES DANS LA DATA SCIENCE
Page 18
REFERENCES
KEEPING UP WITH THE QUANTS
Thomas H. Davenport et Jinho Kim
http://www.amazon.com/Keeping-Up-Quants-Understanding-Analytics/dp/142218725X
DATA SCIENCE IS A TEAM SPORT
Michael Walker
http://www.datasciencecentral.com/profiles/blogs/data-science-is-a-team-sport
ASTRAKHAN LAB — LES ROLES DANS LA DATA SCIENCE
Page 19
LES ROLES DANS LA DATA SCIENCE
En quelques mois, le Big Data est devenu le nec plus ultra de l’industrie
informatique. Dans une économie où le terme de « personnalisation de
masse » acquiert une signification et des capacités nouvelles, les notions de
Good Data et de Data Science semblent progressivement s’imposer. Mieux
anticiper le comportement des clients, découvrir et utiliser à ces fins de
vastes réserves et gisements de données internes et externes, y parvenir par
la construction d’architectures caractérisée par un vaste assemblage de
technologies restent des réalités incontournables.
Observatoire de l’entreprise numérique, le Lab est
un creuset où l’innovation est détectée, analysée et
qualifiée, avant de se diffuser dans les offres
d’Astrakhan Consulting.
Créé en 2010, Astrakhan Consulting est né de la volonté d’adapter le conseil au rythme de l’information et de
l’innovation par des connaissances, une expertise et des idées en constante régénération.
Ville de Russie située sur le delta de la Volga, Astrakhan évoque la steppe, de vastes étendues vierges, l’envie
d’aller plus loin, un paysage constamment parcouru d’une infinité de sillons. Astrakhan existe pour que le flux du
changement n’engloutisse jamais votre entreprise, mais pour qu’au contraire il l’irrigue et la maintienne
continument fertile.
www.astrakhan.fr - http://www.astrakhan.fr/blog/
www.astrakhan.fr - http://www.astrakhan.fr/blog/
Astrakhan Lab Research • www.astrakhan.fr/lab • septembre 2013
Astrakhan Lab Search • http://www.astrakhan.fr/blog/ • décembre 2013