Sujet stage master - LA POSTE 2015 - TAE
Transcription
Sujet stage master - LA POSTE 2015 - TAE
Branche Service Courrier Colis Direction Financière du Courrier – DCPES Proposition de stage: Niveau : Master en statistique Thèmes abordées : Analyse et modélisation du trafic courrier quotidien à l’adresse 1. Contexte Avec près de 40 millions de plis transportés, triés en machine de tri et tracés chaque jour, distribués dans près de 20 millions d’adresses géographiques, La Poste étudie l’opportunité de s’approprier les techniques de restitution et de modélisation sur données massives (Big-Data) afin d’améliorer ses performances dans le traitement et la distribution du courrier. La Poste récupère quotidiennement plus de 100 millions de traces d’objet passant dans les machines de tri, avec des reconnaissances automatiques de certaines informations contenues sur les enveloppes, comme l’affranchissement, les numéros des machines à affranchir ayant affranchies ces objets, les produits commerciaux (Lettre, Lettre Verte, Ecopli etc…), mais aussi, et surtout, les adresses utilisées pour le tri automatisé de ces objets. Ces données sont disponible sur une base distribuée sur plusieurs serveurs, et interrogeables par les techniques Haadoop. Nous avons déjà pu récupérer un grand nombre d’extractions de cette base, dont un historique quotidien de près de 3 ans mesurant, pour chacune des quelques 20 millions d’adresses, un indicateur de productivité (nombre d’objets ayant subi un tri en machine à distribuer pour chaque jour de l’historique) 2. Objectifs du stage : Une base SAS de 20 millions de séries quotidienne de près de 3 ans d’historique est d’ores et déjà disponible, ainsi que le descriptif des adresses et leur géolocalisation (dans deux bases de plus de 20 millions d’enregistrements). La mission proposée serait d’exploiter ces trois sources de données afin d’en extraire des informations pertinentes. L’objectif principal serait d’apporter une aide à la décision pour optimiser les réorganisations adaptatives des tournées de distribution du courrier. Plusieurs axes de travail sont envisageables : Qualification des données (afin de détecter potentiellement les couples «adresses/dates» ayant un comportement « douteux » et ainsi mettre en évidence d’éventuelles défauts de récupération de données liés à des pannes des machines, des serveurs etc…) Branche Service Courrier Colis Direction Financière du Courrier – DCPES Fouille de données (afin d’extraire des classes de comportement de réception de courrier, à mettre en regard avec les données socio-économiques des zones géographiques de distribution) Analyse spatiale de ces données Analyse temporelle des courbes (classification de courbes, modèles de prévision sur zones géographique agrégées etc…) 3. Conditions matérielles : Le stage sera réalisé en partenariat avec le laboratoire SAMM de l'Université Paris 1. Le stagiaire sera co-encadré par Alain Dessertaine, responsable du pôle « Méthodologie et Ingénierie Statistique» du Département Conception et Pilotage des Etudes Statistiques du Courrier, à La Poste – BSCC – Direction financière du Courrier, et par Fabrice Rossi, professeur de mathématiques appliquées, membre du laboratoire SAMM. Lieu du stage : La Poste – DC/DCPES. 3 Rue Jean Richepin. 93160 Noisy le Grand. Le site se trouve à proximité de la gare « Noisy-Mont d’est » sur le RER A. Durée du stage : 6 mois. 4. Connaissances requises : Le candidat, de profil universitaire ou ingénieur statisticien devra : o posséder une solide culture de base en Statistique o présenter de bonnes aptitudes en développement SAS et R. o être autonome et posséder un fort sens de l’initiative. 5. Contact : Alain Dessertaine. Tel. : 07 86 63 30 91. Email : [email protected] Fabrice Rossi. Email : [email protected]