offre de stage - Mathématiques du Cnam

Transcription

offre de stage - Mathématiques du Cnam
OFFRE DE STAGE
Intitulé du poste
:
Direction et/ou Unité d’accueil :
Stagiaire en Statistique & Datamining
Direction Informatique Décisionnelle, pôle Statistiques
PROFIL DU CANDIDAT
Formation
:
Spécialisation :
BAC+5 Ecole d’ingénieur (ENSAI, ISUP…), université ou équivalent.
Statistiques, Datamining, Mathématique et Informatique
DESCRIPTIF DE LA SOCIETE
Lincoln, société de services et de conseil en Informatique Décisionnelle et Statistique accompagne depuis plus de
20 ans ses clients sur des problématiques pointues et complémentaires :
La réalisation d’études statistiques et datamining pour les directions marketing, CRM, risques, financières,
stratégiques,…
L’assistance à maîtrise d’ouvrage : audit, étude, spécification, conseil, définition d’architectures…
L’assistance à maîtrise d’œuvre : analyse, développement, intégration, automatisation, optimisation,
production, TMA, centre de services… pour le déploiement de plateformes décisionnelles d’envergure.
Les formations techniques de haut niveau sur les métiers de l’Informatique Décisionnelle et des Etudes
Statistiques.
Son pôle Data Mining, composé de plus de 80 statisticiens, intervient à toutes les étapes d’un projet statistique et
datamining : du conseil méthodologique à la présentation des études en passant par la mise en œuvre des
analyses et le déploiement informatique des solutions. Les problématiques métiers sur lesquelles Lincoln
intervient sont principalement :
La connaissance, conquête et fidélisation du client : mesure du potentiel, valorisation du client,
optimisation de la rentabilité, segmentation, étude de comportement, campagnes de marketing direct…
L’analyse du risque financier : mesure, mise en conformité réglementaire (Bâle II, MiFID, Solvency…)
La performance et tarification produit : pricing, qualification d’offres, analyse d’impacts…
La prévision : ventes, consommation, audience, parts de marché…
La recherche et développement : benchmark d’outils et logiciels, tests de méthodologies en statistique et
datamining, big data…
DESCRIPTIF DU STAGE : RECHERCHE DE SOUS-GROUPES SUR EVENEMENT RARE
Contexte & Objectif
Dans le cadre de son partenariat avec un grand laboratoire pharmaceutique français, LINCOLN recherche un
stagiaire pour investiguer sur des méthodes statistiques & datamining novatrices pour répondre à la problématique
suivante :
Recherche de sous-groupes dans lesquels l’effet du traitement étudié est significativement
meilleur que celui du traitement comparateur (placebo ou traitement actif) et ce, dans le cas
d’évènement rare
La recherche de méthodes statistiques & Datamining devra tenir compte de la particularité liée aux données
cliniques, à savoir que nous sommes très souvent confrontés à une base de données comportant un très grand
nombre de variables (plusieurs centaines) pour un nombre restreint de patients (au plus quelques milliers). De
plus, le nombre d’évènements peut être très faible (de l’ordre de quelques pourcents).
L’objectif du stage consiste donc à rechercher puis à tester les techniques Statistiques & Datamining les plus
adaptées à cette problématique et devant répondre aux étapes suivantes :
Réduction du nombre de variables d’intérêt par différentes approches :
o
Codage, nettoyage des données et gestion des valeurs manquantes puis étude des corrélations.
o
Pré-sélection des variables les plus influentes sur la cible par rapport à l’effet du traitement.
Recherche de profils de patients d’intérêt selon différentes approches :
o
Construction de règles de décision basées sur des critères cliniques et/ou statistiques.
o
Algorithmes de recherche de sous-groupes : modèle uplift, agrégation de modèles (bagging,
boosting, forêts aléatoires), SIDES, Quint, Interactive Trees…
o
Recherche de tests statistiques les plus pertinents : comparaison de sous-populations,
performances des modèles…
Les méthodes étudiées devront également prendre en compte les contraintes suivantes :
o
La rareté de l’événement (≈1 à 5%)
o
La robustesse statistique (réduction du biais, échantillonnage, bootstrap, etc.)
o
La restitution et la visualisation des résultats
Déroulement du stage
Le stagiaire abordera dans un premier temps un tour d’horizon des méthodes et techniques de modélisation
adaptées à notre problématique puis dans un second temps, il se focalisera sur la mise en œuvre de(s)
technique(s) retenue(s) sur un ou plusieurs jeux de données réelles.
Les méthodes testées et éprouvées sur des données cliniques devront également s’étendre à d’autres domaines
d’activité de LINCOLN, par exemple : le marketing, le risque bancaire, la fraude...
Le stage, réalisé dans les locaux de LINCOLN, sera encadré par un directeur de projets statistiques et le chef de
projets statistiques travaillant pour le laboratoire pharmaceutique partenaire.
APTITUDES REQUISES
Rigueur, curiosité, proactivité
Compétences en Statistiques et Datamining
Intérêt pour la recherche scientifique, la théorie statistique et la programmation
Bonne connaissance de SAS et R
Début de stage
:
01 / 04 / 2015
Durée
:
6 mois
Lieu
:
Lincoln, 4 rue Danjou
92517 Boulogne-Billancourt
:
Dorothée DELAUNAY
Directrice de Projet Statistique
[email protected]
Contacts
Romain GUILLIER
Chef de Projet Statistique
[email protected]
Alix VILLESECHE
Chargée de recrutement
[email protected]