Livre Blanc DataScience
Transcription
Livre Blanc DataScience
LES ROLES DANS LA DATA SCIENCE ASTRAKHAN LAB RESEARCH TABLE DES MATIERES Les rôles dans la Data Science 1 Les profils métiers 2 Les profils techniques 6 Pilotage & gouvernance 8 Les profils back-end 10 En synthèse 12 Où trouver les profils ? 16 AUTEUR François Rivard RELECTEURS Albert Bendayan Séverin Legras RESPONSABLE OFFRE DATA SCIENCE Iarantsoa Rafitosoa RESPONSABLE LAB RESEARCH Yacine Ouadahi PREAMBULE LES ROLES DANS LA DATA SCIENCE En quelques mois, le Big Data est devenu le nec plus ultra de l’industrie informatique. Dans une économie où le terme de « personnalisation de masse » acquiert une signification et des capacités nouvelles, les notions de Good Data et de Data Science semblent progressivement s’imposer. Mieux anticiper le comportement des clients, découvrir et utiliser à ces fins de vastes réserves et gisements de données internes et externes, y parvenir par la construction d’architectures caractérisées par un vaste assemblage de technologies restent des réalités incontournables. Les modalités par lesquelles les entreprises peuvent en bénéficier se précisent chaque jour davantage. Se pose notamment la question des profils et compétences qu’il est nécessaire de réunir pour mettre en œuvre ces platesformes et assurer autour d’elles une animation cohérente et pérenne. Le but est d’utiliser les données internes et externes, structurées et non structurées, pour gagner en compétitivité et prendre des décisions éclairées et parfois disruptives. Pour atteindre ce but, l’entreprise a besoin de former son équipe Data Science, avec des compétences précisément identifiées et avec des rôles clairs. Quelles définitions de postes trouve-t-on aujourd’hui sur le marché ? Quels rôles et responsabilités pour les profils identifiés ? Comment les entreprises peuvent-elles construire une équipe Data Science et comment celle-ci évolue-t-elle dans le temps ? Vous trouverez toutes les réponses à ces questions dans ce livre blanc. ASTRAKHAN LAB — LES ROLES DANS LA DATA SCIENCE Page 1 PARTIE 1 LES PROFILS METIERS Les profils Métier forment la première des trois catégories de profils que l’on trouve autour de la Data Science, avec les profils Technologique et les profils de Gouvernance. On y trouve deux principaux rôles : l’Analyste de Données et le Data Scientist. L’ANALYSTE DE DONNÉES Avant d’évoquer le rôle de l’analyste, commençons par préciser ce que l’on entend par l’analyse des données. Dans le cadre d’une recherche ou d’une expérimentation, il s’agit d’une étape qui consiste à évaluer les données via un raisonnement analytique et logique. Les données provenant de différentes sources sont réunies, revues puis analysées pour produire des conclusions ou mener à des découvertes, par l’utilisation de différentes méthodes dont les plus connues sont le Data Mining, le Text Analytics, la Business Intelligence et la Data Vizualisation. Ce travail donne également l’occasion d’un examen complet de chaque composante des données fournies. L’analyste de données (Data Analyst dans la terminologie anglo-saxonne) est ainsi celui qui se spécialise dans ces travaux : collecte, organisation et analyse pour mise à disposition dans le cadre d’analyse plus « industrielles ». Le mot « Analyst » doit-il ainsi s’entendre dans sa signification anglo-saxonne. Il est le défricheur, le découvreur, une sorte de superlaborantin, tout comme dans des cabinets tels que Gartner Group ou Forrester Research ; quelqu’un capable de comprendre les tendances d’un secteur d’activités ou d’un domaine technologique et de recenser les entreprises qui en forgeront demain la dynamique et le visage. Dans le cycle de l’innovation, il est au Front-End et il enquête plutôt seul ; il mettra plus tard ses résultats en commun avec ses pairs. Il n’a pas à proprement parler un profil Système d’Information. Il est tourné vers le Métier, mais l’ensemble des articles que nous avons pu lire sur ce profil le montre naturellement en interface constante avec les équipes IT, notamment avec les gestionnaires et administrateurs de bases de données. Sans être technicien lui-même, il doit se montrer capable d’orienter le travail technique afin de pouvoir se connecter aux sources de données souhaitées et d’en puiser le contenu nécessaire à ses investigations. En fonction de la nature des données et du secteur concerné, une connaissance des procédures règlementaires est appréciée, de même que la capacité à définir des projections et des tendances. À ces conditions, l’analyste de données pourra également participer aux étapes menant à la production d’une étude ou d’une enquête, ou à la production d’une synthèse accompagnant un rapport. De facto, la capacité de rédaction est considérée comme une compétence complémentaire intéressante. Dans l’échiquier de la Data Science, le Data Analyst est un profil qui compte 3 à 8 ans d’expérience et qui peut évoluer ensuite vers un rôle de Data Scientist. ASTRAKHAN LAB — LES ROLES DANS LA DATA SCIENCE Page 2 LE DATA SCIENTIST Le Data Scientist (terme que, contrairement à celui de Data Analyst, on ne traduira pas, le terme semblant s’être figé dans cette formulation au profit d’un hypothétique « Scientifique des Données » certainement moins vendeur) reste LA fiche de poste qui résume à elle seule toute l’effervescence parfois frénétique qui règne autour du Big Data. La célèbre revue Harvard Business Review, déjà mentionnée dans ces lignes, ne l’a-t-elle pas non seulement décrit comme un job « sexy », mais aussi rien moins que comme « le job le plus sexy de tout le vingt-et-unième siècle » ? Difficile de faire mieux côté buzz… Un buzz savamment entretenu, relayé, amplifié dans la presse via une pléiade d’interviews réalisées auprès de dirigeants principalement américains et dans lesquelles on peut y lire que les profils disponibles sur le marché ne couvriraient encore que 20% des besoins des entreprises. Une telle rareté, permettant de prétendre à des niveaux de rémunération élevés, en pousserait plus d’un à se prétendre Data Scientist. C’est ce qu’affirme Scott Gnau, président de Teradata Datalab : « Il existe certainement un paquet de personnes qui savent épeler sans faute le mot Hadoop, coller ça habilement dans leur CV et tranquillement prétendre être Data Scientist. Rien n'est pourtant plus éloigné de la réalité. Il est indispensable pour notre industrie de définir précisément ce terme ». Plutôt que d’être pris de vertige, posons-nous simplement question : de quoi au juste parlons-nous ? la Selon la lettre, le Data Scientist est un profil de très haut niveau, capable de répondre à des exigences Métier critiques en naviguant dans d’impressionnants volumes de données et en y détectant des corrélations cachées. En se concentrant sur les bonnes données (celles qui, reliées ensemble, donnent du sens), il créerait ainsi de l’information et des modèles aptes à la prédiction. Le Data Scientist devrait consacrer son temps et son énergie à l’identification de résultats analytiques pour les enjeux Métier critiques, ce qui peut s’énoncer en d’autres termes : à transformer les données en information, l’information en connaissance et en idées, et les idées, valorisables et applicables, en prise de décision et en stratégies innovantes. On conçoit aisément qu’il s’agisse d’un profil à très forte valeur ajoutée, doté d’une large vision, d’une connaissance précise du métier de l’entreprise. Le terme de Scientist doit se comprendre dans sa signification anglo-saxonne tirée du lexique scientifique : plus que « Scientifique » finalement, c’est le « Savant », qui se distingue de l’ « Analyste » par son expérience et, précisément, par sa science. Ce constat pourrait justifier que le terme n’ait finalement pas été traduit. ASTRAKHAN LAB — LES ROLES DANS LA DATA SCIENCE Page 3 LE CHARISME DU DATA SCIENTIST Selon Scott Gnau, président du Teradata Datalab, la fiche de poste complète d’un Data Scientist s’articulerait autour de trois catégories de compétences : STATISTIQUES Un rôle proche de celui de l’analyste de données, TECHNOLOGIQUES L’écriture d’algorithmes et de code capables de traiter les vastes volumes de données, ARTISTIQUES & EXPLORATOIRES Des personnages hautement créatifs et curieux dont le propre est de savoir naviguer quasi-intuitivement dans le contenu pour y vérifier la véracité de leurs intuitions. Ce dernier point concentre le charisme du Data Scientist : un fascinant côté « eurêka », un panache à clamer « confiez-moi l’océan que j’y tamise vos pépites », une facilité à y consacrer d’autant moins d’efforts que le talent est grand. Tout cela rapproche le Data Scientist, pour le mystère qui entoure ses capacités à corréler intuitivement des informations à priori sans rapport, pour l’attractivité qu’il opère vis-à-vis de l’entreprise et pour la valeur qu’il lui apporte, du trader en salle de marché. Alors, pour toutes ces raisons, et tant que de potentielles dérives n’auront pas été constatées, quelle entreprise ne rechercherait pas à s’entourer de tels hommes providentiels ? ASTRAKHAN LAB — LES ROLES DANS LA DATA SCIENCE Page 4 PARTIE 2 LES PROFILS TECHNIQUES Si la compréhension des données et l’art intuitif d’y naviguer restent l’apanage de profils davantage tournés vers le métier, il n’existe pas de Data Science sans technologie. Des rôles davantage ancrés dans la connaissance technique des données et des moyens d’y accéder viennent donc épauler les premiers. Ainsi que nous allons le voir ci-dessous, ils ne sont pas pour autant ravalés au rang de seconds rôles. DATA ENGINEER L’ingénieur de données est celui des rôles qui se préoccupe le plus des systèmes applicatifs autour de la gestion de la donnée et du traitement de la donnée elle-même. Il va ainsi gérer un cycle global qui couvre la collecte, le stockage et l’exploitation de la donnée. Il supervise la construction des vastes ensembles de données et effectue des requêtes sur ceux-ci de manière à s’assurer de la pertinence des réponses et proposer des voies d’amélioration. Il teste et éprouve les systèmes en permanence. Dans un monde connu, on l’aurait probablement déjà qualifié d’administrateur de bases de données, mais les technologies évoluant, les sources de données et les formats se multipliant, lui aussi se diversifie tout en se rapprochant du contenu et du métier. Ce n’est pas tout : il doit posséder un sens de la vision, des qualités de communication certaines, des compétences en programmation et, pour reprendre une expression trouvée sur le site how.com, « un flair mathématique1 ». Pour cette raison, on attend généralement de ce rôle qu’il possède un certain degré d’expertise technique dans la collecte automatique des données et dans les systèmes de reporting, y compris dans la capacité à interpréter et à résoudre les problèmes de fonctionnement. Dans une architecture Big Data, les ingénieurs de données sont les designers, les constructeurs et les managers de l’information. Ils développent l’architecture qui aide à analyser et traiter les données telle que l’organisation en a besoin. Et ils s’assurent que les systèmes fonctionnent de manière fluide. 1 Cette conviction nous a conduit, chez Astrakhan, à construire la Pépinière qui forme des architectes de système d’information par un parcours d’expérience précisément décrit aboutissant à une collection de « badges » et à une certification. ARCHITECTE DATA SCIENCE Au centre de la composition se trouvent les architectes Data Science aux compétences nécessairement multiples : puisque Wikibooks présente la Data Science comme « un mashup de disciplines », rien d’anormal à ce que l’architecte Data Science, au carrefour de questions technologiques vastes et complexes, se caractérise presque comme un mashup de compétences. En effet, il lui est nécessaire de maîtriser tout aussi bien les techniques de médiation et de connexion à toute source de données internes et externes que le paramétrage d’un stockage de masse dans des bases de données noSQL, éventuellement en mode Cloud, ou encore les architectures de Business Intelligence, incluant le Data Mining ou la Data Vizualisation. Il synthétiserait presque à lui seul vingt ans de compétences en architecture tant il se positionne au centre du système d’information. Cependant, comme il ne peut prétendre à maîtriser seul l’ensemble des technologies et des sources de données sur lesquelles ses constructions s’appuient, il fait reposer une partie de son expertise sur le Data Engineer. Il existe ainsi une articulation entre l’architecte Data Science et le Data Engineer de même nature que celle évoquée plus haut entre le Data Scientist et le Data Analyst : au premier le recul et la vue de haut niveau, au second l’expertise et la connaissance intime des moyens. Et de la même manière, les rôles auront tendance à être distincts dans les grandes organisations, alors que dans des organisations plus ramassées, ils pourront être confondus. L’architecte Data Science est aussi un architecte de système d’information, soit quelqu’un qui sait traduire les exigences, fonctionnelles comme non fonctionnelles, en éléments d’architecture fonctionnelle, applicative et technique en s’appuyant, le cas échéant, sur des actifs concrets d’architecture d’entreprise. L’aspect fonctionnel ne doit pas surprendre, si on garde en tête que les architectures de données nécessitent généralement une bonne compréhension du métier. En tant qu’architecte, il conserve néanmoins les deux pieds ancrés dans la technique. Il permet à un produit prototypal d’évoluer progressivement vers une plate-forme industrielle. Si on les replace dans un processus d’innovation, on pourra le voir comme une courroie de transmission entre le Front-End, où œuvrent le Data Scientist et son équipe d’analystes, et le Back-End, où s’activent des profils plus « traditionnels » dédiés à un management plus organisé, plus « industrialisé », de l’information. Il produit un ensemble de recommandations technologiques et d’infrastructure en bâtissant les architectures de données de manière à ce qu’elles soient performantes et évolutives. Il maîtrise toute la chaîne de liaison applicative entre les différents constituants d’une architecture Big Data, en déterminant notamment quels usages autorisent une personnalisation de celle-ci vis-à-vis de l’architecture de référence. Il assure une véritable autorité en la matière vis-à-vis des profils Métier et Technique et doit être perçu comme un leader incontestable sur son champ d’intervention, en raison notamment des frontières encore parfois floues qui définissent encore parfois les contours de ce domaine. Il donne ainsi une visibilité sur les spécificités d’une architecture Big Data vis-à-vis d’implémentations plus « traditionnelles » de Business Intelligence, et veille aussi à garantir une continuité dans les mécanismes employés sur ce domaine lorsque rien ne justifie réellement de s’en émanciper. PARTIE 3 PILOTAGE & GOUVERNANCE Le pilotage et la gouvernance du domaine Data Science sont assurés par deux rôles : le chef de produit Data Science et le Chief Data Officer. LE CHEF DE PRODUIT DATA SCIENCE Le chef de produit Data Science peut être considéré comme un coordinateur des activités menées en Front comme en Back. Il pilote le portefeuille d’initiatives et de projets, fonctionnels comme techniques, relatifs au déploiement et à la généralisation des initiatives Data Science. Il relaie la vision stratégique du management sur le terrain et assure un alignement constant de la vision et du terrain. Plus qu’un responsable de projet au sens habituel du terme, son rôle consiste également à permettre et à entretenir durablement une relation profitable entre les profils fonctionnels et les profils technologiques, de manière à assurer la réutilisation des actifs construits dans le cadre des expérimentations et de la généralisation. Il donne ainsi une visibilité complète à tous les acteurs sur les initiatives en cours de construction, et garantit par-là l’animation et la dynamique de l’initiative Data Science dans l’entreprise. Un rôle-clé, peut-être un peu sousestimé, à mi-chemin entre le Project Management Officer (PMO) et le gestionnaire de portefeuille (Portfolio Management). Pour l’ensemble de ces raisons, on n’hésitera pas à qualifier ce rôle d’agile, a fortiori dans un contexte où la part d’innovation et de rechercher milite pour une résolution itérative des zones d’incertitude. La segmentation des activités et des rôles telle qu’elle est présentée dans ce document bénéficiera de pratiques agiles telles que Scrum ou le Lean Startup, parfaitement applicables dans le contexte de la Data Science. Enfin, le chef de produit Data Science assure la promotion de la plate-forme et, via des actions de communication ciblées en interne et en externe, la multiplication des initiatives Data Science dans l’entreprise. Le chef de produit Data Science reste avant tout un rôle front-end, contrairement à celui de Chief data Officer, transverse du Front au Back. LE CHIEF DATA OFFICER Aux côtés des Data Scientist, Data Analyst ou autres Data Engineer vantés par les notes d’analyse en provenance d’outre-Atlantique, on trouve en France, présenté par l’ANDSI (Association Nationale des Directeurs de Système d’Information), la promotion du rôle de Chief Data Officer ou CDO. Le Chief Data Officer est responsable de la gouvernance des données et de leur utilisation en tant qu’actifs de l’entreprise. Il se situe davantage au croisement de la gouvernance des données, du Master Data Management et de l’analyse quantitative. Il est en charge de l’amélioration continue des processus autour de la gestion de l’information. Il se positionne ainsi à la droite du DSI, lorsqu’il n’est pas DSI lui-même : tout dépend en fait de la taille de l’équipe Data Science et de celle de l’entreprise elle-même. Pour citer Pierre Delort, président de l’ANDSI : « il est assez naturel et légitime qu’en phase d’initialisation de la fonction de CDO, ce soit le DSI qui assure le leadership de cette mission. En effet, la fonction de DSI est transversale et caractérisée par une proximité avec les équipes en charge des datawarehouses qui disposent des meilleures connaissances sur les données. ». Par la suite, le DSI serait amené à passer la main à un CDO spécialisé sur son rôle, et qui aurait pour mission de se positionner comme leader des rôles de Data Analysts, Data Scientists et autres Data Engineers. Le chef des « quants », en quelque sorte. En tant que responsable exécutif, le Chief Data Officer aurait également des prérogatives financières. Pour citer à nouveau Pierre Delort : « il est le seul à pouvoir résoudre la quadrature du cercle autrement dit prouver le ROI et mesurer l’impact de nouveaux usages et comportements dans le cadre de réseaux sociaux d’entreprise et plus globalement dans la perspective de projets entreprise 2.0 ou social business ». Sur ce dernier point, l’argumentaire reste cependant moins détaillé et de facto moins convaincant. PARTIE 4 LES PROFILS BACK-END Les rôles présentés dans les points 1 et 2 font apparaître une composante créative, de l’intuition, une dimension d’analyse qui caractérisent des travaux de recherche. Dans la chaîne de l’innovation, on les désignerait comme faisant partie du front-end de l’innovation. Au back-end se trouvent des rôles davantage dédiés au go-to-market, ce qui, dans notre contexte, s’apparente à des travaux de stabilisation et d’industrialisation des activités menées en avant par le front-end. Ces profils back-end sont présentés dans le paragraphe qui suit. L’ARCHIVISTE DIGITAL Il se concentre sur l’acquisition, le stockage et la conservation des données digitales qui forment un gisement d’information à part entière. LE CONSEILLER JURIDIQUE Il assure notamment la vérification des droits d’utilisation de l’information et s’assure du respect des contraintes règlementaires. LE GESTIONNAIRE D’INFORMATION Il assure la promotion, l’accès, l’organisation, l’utilisation et l’archivage de l’information au sein de l’entreprise. Il est le pendant Back-End du chef de produit Data Science au Front-End. Il nourrit nécessairement un lien avec le CDO ou avec le CIO en fonction de l’organisation adoptée. L’INFORMATION STEWARD Il est aussi connu sous le nom de Data Steward, mais avec la prolifération des formats et des volumes de données, son périmètre s’adresse désormais à une catégorie plus vaste. Il a pour mission de fédérer les processus autour de l’information dans l’entreprise. En cela, il se pose comme un correspondant du gestionnaire d’information, si ce dernier rôle n’est pas directement tenu par le CDO. LE DATAVIZ DESIGNER Il assure la part de finition graphique du travail des analystes de données et du Data Scientist. Il confère aux efforts de ceux-ci une ergonomie et une attractivité proche de celle des infographies que l’on trouve désormais partout sur Internet. PARTIE 5 EN SYNTHESE Des six profils passés en revue ci-dessus, il ressort des niveaux d’expérience différents qui peuvent conduire à des relations hiérarchiques, et définissent une certaine pyramide des rôles et des capacités d’évolution par filière. TITRE ACTIVITES EXPERIENCE ÉVOLUTION DATA ANALYST Analyse des données 3 à 8 ans Data Scientist DATA SCIENTIST Réponse aux enjeux métiers 6 à 15 ans Data Trader Chef de produit Big Data, Chief Data Officer DATA ENGINEER Accès aux sources de données 0 à 8 ans Architecte Data Science ARCHITECTE DATA SCIENCE Construction d’architecture Data Science d’entreprise 5 à 12 ans Directeur de l’architecture Directeur des études CHEF DE PRODUIT BIG DATA Management du portfolio Data Science 3 à 15 ans Chief Data Officer Directeur des études CHIEF DATA OFFICER Gestionnaire de l’information front-end (Data Science) et back-end 12 à 20 ans CIO Graphiquement, et si l’on y ajoute les rôles back-end, une organisation autour de la gestion de l’information, incluant la partie Data Science, pourrait ressembler au schéma ci-dessous : — ORGANISATION AUTOUR DE LA GESTION DE L’INFORMATION — A noter que le Data Engineer et l’architecte Data Science se situent, ainsi que le représente le schéma ci-dessus, à l’intersection des deux domaines et assurent ainsi un lien technologique entre front et back qui garantit l’homogénéité d’une plate-forme Data Science d’entreprise. En termes de mise en place, nous distinguons trois niveaux de maturité qui correspondent à trois phases : le lancement (ignition), le décollage (take-off) et la vitesse de croisière (full throttle). IGNITION TAKE-OFF Le CDO est le CIO L’architecte d’entreprise devient CDO et CIO sont devenus deux progressivement rôles distincts. Un Enterprise Architect vient cartographier l’architecture des données Data Analyst et Data Scientist sont un seul et même rôle Data Engineer et Architecte Big Data sont un seul et même rôle. Un architecte BI avec un feeling métier et l’envie de monter en compétences sur de nouvelles technologies est nommé. FULL THROTTLE CDO. Il commence à organiser la partie Back-End. CDO et Data Scientists travaillent en parfaite intimité La partie Front-End se met en pour élargir le patrimoine de place avec les outils adéquats. données Un monétiser chef de produit Data Science est nommé. de Data Analyst commencent à se spécialiser. de spécialistes des technologies directement Search…). Scientists et nouvelles Certains Data deviennent Data Traders. Le chef de produit Data Science L’architecte Big Data s’entoure ne l’entreprise les opportunités. Les rôles de Data Scientist et qu’il de maîtrise pas (Médiation, assure la promotion et la généralisation de la plate-forme dans l’entreprise. L’équipe d’Architectes Data Science et de Data Engineers devient un bureau d’architecte qui couvre la partie Data Science, BI, médiation et Cloud. Ces scénarios sont dépendants de la taille de l’organisation. La façon dont les rôles sont initialement confondus, puis se distinguent au fur et à mesure que l’initiative prend de l’ampleur, fait écho à la taille de l’entreprise : plus l’organisation est étendue, plus les rôles auront tendance à se segmenter. À l’inverse, moins l’organisation est grande, et plus les rôles auront tendance à rester mêlés dans la durée. On recensera ainsi dans ces dernières des compétences plus généralistes et moins spécialisées. PARTIE 6 OU TROUVER LES PROFILS ? Pour toute entreprise désireuse de se lancer dans la Data Science, la palette de rôles que nous décrivons ici génère inévitablement la question du sourcing. Où trouver des compétences aussi pointues et diversifiées ? LE CAS DU DATA SCIENTIST La fiche de poste d’un Data Scientist, à elle seule, tire un arsenal de compétences variées et pas toujours facile à réunir en un seul cerveau. Faut-il se résoudre à court terme à voir le Data Scientist comme une étiquette qui regrouperait plusieurs personnes aux compétences complémentaires ? Ces profils existent : nous les rencontrons, nous pouvons même leur parler ; à ceci près que la combinaison de savoir-faire qu’ils décrivent reste encore denrée rare. Si l’on doit évoquer la question de leur formation, on comprend : que ces moutons à cinq pattes ne peuvent encore provenir que d’une formation spécifique et plutôt inédite à l’heure où nous écrivons ces lignes. Toujours selon Scott Gnau de Teradata, chacun des profils recensés ci-dessus nécessiterait à lui seul une formation spécifique. qu’il est nécessaire qu’ils se confrontent quelque temps au rôle d’Analyste de Données avant de devenir de vrais Data Scientists, tout comme un Data Engineer a besoin de rouler un peu sa bosse avant de se poser comme un véritable Architecte Data Science. Pendant la phase d’ignition, l’analyste de données et le Data Scientist resteront vraisemblablement deux rôles confondus. Cela signifie que les entreprises vont accepter, dans un premier temps, de travailler avec des Data Scientists « en formation ». Ce scénario, acceptable, décrit une phase de transition qui durera deux à trois ans avant que des Data Scientists de formation n’arrivent sur le marché. et expérimentés En France, certaines entreprises pourraient s’inspirer de ce qu’IBM annonce mettre en place aux Etats-Unis, à savoir des partenariats avec différentes universités en vue de financer la formation de profils Big Data à court et moyen terme. Astrakhan travaille à l’établissement d’un tel plan de formation et a pris contact avec différentes écoles et universités en vue de mettre en place un cursus de ce type. Quelles seraient les caractéristiques d’un tel programme de formation ? Un bagage certain en sciences : mathématiques appliquées, statistiques, économie, économétrie, Une connaissance approfondie du marketing stratégique, du marketing produit, de la relation client, et des idées en termes de valorisation du patrimoine de données et de monétisation des actifs, Des notions avancées d’architecture Data Science : connexion aux sources de données, stockage dynamique à gros volumes, analyse sémantiques, connaissance de l’Open Data, mise à disposition de l’information auprès des consommateurs de données, Une vraie maîtrise des techniques et solutions de visualisation de données, puisque la facilitation visuelle est à l’origine d’une partie de l’émergence des idées. Cet inventaire décrit une formation à michemin entre l’école de commerce et l’école ASTRAKHAN LAB — LES ROLES DANS LA DATA SCIENCE Page 16 d’ingénieur. Des formations croisées, du type de celle qu’ont mis en place HEC et Mines Paris sur le management des systèmes d’information, pourrait couvrir l’intégralité du périmètre. Fraichement sortis de l’école, il manquera encore à ces diplômés, certainement très courtisés, la connaissance du monde de l’entreprise, et cela sans compter sur une spécialisation verticale qui semble incontournable pour comprendre les données manipulées par un secteur. Le stage avec embauche semble ainsi proposer une réponse intéressante, tout comme l’alternance pour les profils déjà reconvertir. aguerris qui souhaitent se À court terme, les entreprises vont d’abord chercher à faire évoluer des compétences existant dans leur effectif et à les faire évoluer progressivement vers la Data Science, au moyen de formations ciblées. L’arrivée progressive de générations natives à la Data Science devra s’opérer dans le respect de l’organisation en place, mais avec le souci de bénéficier des idées nouvelles et de la valeur que les « petits nouveaux » apporteront dans leurs bagages. LE CAS DE L’ARCHITECTE DATA SCIENCE Le cas de l’architecte Data Science, autre rôle clé, est légèrement différent. Un architecte expérimenté dispose déjà généralement d’une palette de compétences autour de plusieurs technologies et domaines. De plus, on ne forme pas un architecte : un bon architecte est souvent le fruit de plusieurs années passées sur le terrain La Data Science étant une combinaison de domaines, l’entreprise doit pouvoir capitaliser sur des hommes disposant déjà d’un savoirfaire sur un ou plusieurs domaines de la Data Science. Si l’architecte n’est pas lui-même pointu sur tous les sujets, il pourra s’appuyer sur les connaissances d’un Data Engineer spécialisé. LES SOLUTIONS TECHNOLOGIQUES La compétence et le talent sont certainement deux qualités incontournables pour faire un bon Data Scientist. Il n’empêche qu’ils ne peuvent se départir de solutions de qualité. Si l’on garde à l’esprit le volume de données mis en jeu, peut-on réellement considérer qu’un Data Scientist saura faire son travail avec une solution de mauvaise qualité ? Cela semble compromis. Sur quel type de solution un Data Scientist peut-il s’appuyer pour stimuler sa créativité ? ASTRAKHAN LAB — LES ROLES DANS LA DATA SCIENCE Page 17 PARTIE 7 CONCLUSION Issu du monde anglo-saxon ou de nos latitudes, les rôles qui émergent autour de la Data Science ont tous pour effet de positionner la donnée au centre du système d’information et de l’entreprise. Cette lame de fond n’est peutêtre finalement rien d’autre que la volonté de faire la place à une nouvelle catégorie de manager qui serait en prise directe avec l’analyse quantitative et laisserait de moins en moins d’espace à une prise de décision fondée sur l’intuition et l’expérience, sans pour autant (et c’est tout l’intérêt du Big et des modèles prédictifs) céder la place à la disruption et à l’innovation. L’exemple de NetFlix et de sa série phare House of Cards est ainsi évocateur à plus d’un titre. NetFlix est à l’origine un distributeur américain de films et de séries en streaming, qui décide de se lancer dans la création originale via la réalisation d’une série. Par des algorithmes d’analyse des données laissées par ses 30 millions d’abonnés, l’entreprise identifie qu’une série politique tournée par David Fincher avec Kevin Spacey serait la bonne formule. NetFlix lance la réalisation de deux saisons sur la base d’analyse dont la justesse est récompensée par le succès d’House of Cards. L’analyse quantitative au service de l’intuition et de l’innovation : lancer une série d’envergure au nez et à la barbe des mastodontes du secteur est un acte courageux et disruptif. Se baser sur l’analyse quantitative est une façon comme une autre de limiter son risque et de rentabiliser l’investissement. Il en va également ainsi de la Data Science dans le sport de haut niveau : elle aide à mieux comprendre et à être plus efficace. Elle ne garantit pas pour autant le gain des matches. Elle conservera toujours une inévitable part d’incertain même si, au final, la prise de décision sera certainement meilleure. Les générations de managers capables de fonctionner efficacement dans ce mélange de certitudes et d’absence de garanties définiront demain toute la valeur que l’entreprise agile et adaptative est capable de générer pour ellemême et pour ses clients. ASTRAKHAN LAB — LES ROLES DANS LA DATA SCIENCE Page 18 REFERENCES KEEPING UP WITH THE QUANTS Thomas H. Davenport et Jinho Kim http://www.amazon.com/Keeping-Up-Quants-Understanding-Analytics/dp/142218725X DATA SCIENCE IS A TEAM SPORT Michael Walker http://www.datasciencecentral.com/profiles/blogs/data-science-is-a-team-sport ASTRAKHAN LAB — LES ROLES DANS LA DATA SCIENCE Page 19 LES ROLES DANS LA DATA SCIENCE En quelques mois, le Big Data est devenu le nec plus ultra de l’industrie informatique. Dans une économie où le terme de « personnalisation de masse » acquiert une signification et des capacités nouvelles, les notions de Good Data et de Data Science semblent progressivement s’imposer. Mieux anticiper le comportement des clients, découvrir et utiliser à ces fins de vastes réserves et gisements de données internes et externes, y parvenir par la construction d’architectures caractérisée par un vaste assemblage de technologies restent des réalités incontournables. Observatoire de l’entreprise numérique, le Lab est un creuset où l’innovation est détectée, analysée et qualifiée, avant de se diffuser dans les offres d’Astrakhan Consulting. Créé en 2010, Astrakhan Consulting est né de la volonté d’adapter le conseil au rythme de l’information et de l’innovation par des connaissances, une expertise et des idées en constante régénération. Ville de Russie située sur le delta de la Volga, Astrakhan évoque la steppe, de vastes étendues vierges, l’envie d’aller plus loin, un paysage constamment parcouru d’une infinité de sillons. Astrakhan existe pour que le flux du changement n’engloutisse jamais votre entreprise, mais pour qu’au contraire il l’irrigue et la maintienne continument fertile. www.astrakhan.fr - http://www.astrakhan.fr/blog/ www.astrakhan.fr - http://www.astrakhan.fr/blog/ Astrakhan Lab Research • www.astrakhan.fr/lab • septembre 2013 Astrakhan Lab Search • http://www.astrakhan.fr/blog/ • décembre 2013