offre de stage - Mathématiques du Cnam
Transcription
offre de stage - Mathématiques du Cnam
OFFRE DE STAGE Intitulé du poste : Direction et/ou Unité d’accueil : Stagiaire en Statistique & Datamining Direction Informatique Décisionnelle, pôle Statistiques PROFIL DU CANDIDAT Formation : Spécialisation : BAC+5 Ecole d’ingénieur (ENSAI, ISUP…), université ou équivalent. Statistiques, Datamining, Mathématique et Informatique DESCRIPTIF DE LA SOCIETE Lincoln, société de services et de conseil en Informatique Décisionnelle et Statistique accompagne depuis plus de 20 ans ses clients sur des problématiques pointues et complémentaires : La réalisation d’études statistiques et datamining pour les directions marketing, CRM, risques, financières, stratégiques,… L’assistance à maîtrise d’ouvrage : audit, étude, spécification, conseil, définition d’architectures… L’assistance à maîtrise d’œuvre : analyse, développement, intégration, automatisation, optimisation, production, TMA, centre de services… pour le déploiement de plateformes décisionnelles d’envergure. Les formations techniques de haut niveau sur les métiers de l’Informatique Décisionnelle et des Etudes Statistiques. Son pôle Data Mining, composé de plus de 80 statisticiens, intervient à toutes les étapes d’un projet statistique et datamining : du conseil méthodologique à la présentation des études en passant par la mise en œuvre des analyses et le déploiement informatique des solutions. Les problématiques métiers sur lesquelles Lincoln intervient sont principalement : La connaissance, conquête et fidélisation du client : mesure du potentiel, valorisation du client, optimisation de la rentabilité, segmentation, étude de comportement, campagnes de marketing direct… L’analyse du risque financier : mesure, mise en conformité réglementaire (Bâle II, MiFID, Solvency…) La performance et tarification produit : pricing, qualification d’offres, analyse d’impacts… La prévision : ventes, consommation, audience, parts de marché… La recherche et développement : benchmark d’outils et logiciels, tests de méthodologies en statistique et datamining, big data… DESCRIPTIF DU STAGE : RECHERCHE DE SOUS-GROUPES SUR EVENEMENT RARE Contexte & Objectif Dans le cadre de son partenariat avec un grand laboratoire pharmaceutique français, LINCOLN recherche un stagiaire pour investiguer sur des méthodes statistiques & datamining novatrices pour répondre à la problématique suivante : Recherche de sous-groupes dans lesquels l’effet du traitement étudié est significativement meilleur que celui du traitement comparateur (placebo ou traitement actif) et ce, dans le cas d’évènement rare La recherche de méthodes statistiques & Datamining devra tenir compte de la particularité liée aux données cliniques, à savoir que nous sommes très souvent confrontés à une base de données comportant un très grand nombre de variables (plusieurs centaines) pour un nombre restreint de patients (au plus quelques milliers). De plus, le nombre d’évènements peut être très faible (de l’ordre de quelques pourcents). L’objectif du stage consiste donc à rechercher puis à tester les techniques Statistiques & Datamining les plus adaptées à cette problématique et devant répondre aux étapes suivantes : Réduction du nombre de variables d’intérêt par différentes approches : o Codage, nettoyage des données et gestion des valeurs manquantes puis étude des corrélations. o Pré-sélection des variables les plus influentes sur la cible par rapport à l’effet du traitement. Recherche de profils de patients d’intérêt selon différentes approches : o Construction de règles de décision basées sur des critères cliniques et/ou statistiques. o Algorithmes de recherche de sous-groupes : modèle uplift, agrégation de modèles (bagging, boosting, forêts aléatoires), SIDES, Quint, Interactive Trees… o Recherche de tests statistiques les plus pertinents : comparaison de sous-populations, performances des modèles… Les méthodes étudiées devront également prendre en compte les contraintes suivantes : o La rareté de l’événement (≈1 à 5%) o La robustesse statistique (réduction du biais, échantillonnage, bootstrap, etc.) o La restitution et la visualisation des résultats Déroulement du stage Le stagiaire abordera dans un premier temps un tour d’horizon des méthodes et techniques de modélisation adaptées à notre problématique puis dans un second temps, il se focalisera sur la mise en œuvre de(s) technique(s) retenue(s) sur un ou plusieurs jeux de données réelles. Les méthodes testées et éprouvées sur des données cliniques devront également s’étendre à d’autres domaines d’activité de LINCOLN, par exemple : le marketing, le risque bancaire, la fraude... Le stage, réalisé dans les locaux de LINCOLN, sera encadré par un directeur de projets statistiques et le chef de projets statistiques travaillant pour le laboratoire pharmaceutique partenaire. APTITUDES REQUISES Rigueur, curiosité, proactivité Compétences en Statistiques et Datamining Intérêt pour la recherche scientifique, la théorie statistique et la programmation Bonne connaissance de SAS et R Début de stage : 01 / 04 / 2015 Durée : 6 mois Lieu : Lincoln, 4 rue Danjou 92517 Boulogne-Billancourt : Dorothée DELAUNAY Directrice de Projet Statistique [email protected] Contacts Romain GUILLIER Chef de Projet Statistique [email protected] Alix VILLESECHE Chargée de recrutement [email protected]