Sujet stage master - LA POSTE 2015 - TAE

Transcription

Sujet stage master - LA POSTE 2015 - TAE
Branche Service Courrier Colis
Direction Financière du Courrier – DCPES
Proposition de stage:
Niveau : Master en statistique
Thèmes abordées : Analyse et modélisation du trafic courrier quotidien à
l’adresse
1. Contexte
Avec près de 40 millions de plis transportés, triés en machine de tri et tracés chaque jour, distribués
dans près de 20 millions d’adresses géographiques, La Poste étudie l’opportunité de s’approprier les
techniques de restitution et de modélisation sur données massives (Big-Data) afin d’améliorer ses
performances dans le traitement et la distribution du courrier.
La Poste récupère quotidiennement plus de 100 millions de traces d’objet passant dans les machines
de tri, avec des reconnaissances automatiques de certaines informations contenues sur les
enveloppes, comme l’affranchissement, les numéros des machines à affranchir ayant affranchies ces
objets, les produits commerciaux (Lettre, Lettre Verte, Ecopli etc…), mais aussi, et surtout, les
adresses utilisées pour le tri automatisé de ces objets. Ces données sont disponible sur une base
distribuée sur plusieurs serveurs, et interrogeables par les techniques Haadoop.
Nous avons déjà pu récupérer un grand nombre d’extractions de cette base, dont un historique
quotidien de près de 3 ans mesurant, pour chacune des quelques 20 millions d’adresses, un
indicateur de productivité (nombre d’objets ayant subi un tri en machine à distribuer pour chaque
jour de l’historique)
2. Objectifs du stage :
Une base SAS de 20 millions de séries quotidienne de près de 3 ans d’historique est d’ores et déjà
disponible, ainsi que le descriptif des adresses et leur géolocalisation (dans deux bases de plus de 20
millions d’enregistrements). La mission proposée serait d’exploiter ces trois sources de données afin
d’en extraire des informations pertinentes. L’objectif principal serait d’apporter une aide à la décision
pour optimiser les réorganisations adaptatives des tournées de distribution du courrier. Plusieurs
axes de travail sont envisageables :
Qualification des données (afin de détecter potentiellement les couples «adresses/dates»
ayant un comportement « douteux » et ainsi mettre en évidence d’éventuelles défauts de
récupération de données liés à des pannes des machines, des serveurs etc…)
Branche Service Courrier Colis
Direction Financière du Courrier – DCPES
Fouille de données (afin d’extraire des classes de comportement de réception de courrier, à
mettre en regard avec les données socio-économiques des zones géographiques de
distribution)
Analyse spatiale de ces données
Analyse temporelle des courbes (classification de courbes, modèles de prévision sur zones
géographique agrégées etc…)
3. Conditions matérielles :
Le stage sera réalisé en partenariat avec le laboratoire SAMM de l'Université Paris 1.
Le stagiaire sera co-encadré par Alain Dessertaine, responsable du pôle « Méthodologie et Ingénierie
Statistique» du Département Conception et Pilotage des Etudes Statistiques du Courrier, à La Poste –
BSCC – Direction financière du Courrier, et par Fabrice Rossi, professeur de mathématiques
appliquées, membre du laboratoire SAMM.
Lieu du stage : La Poste – DC/DCPES. 3 Rue Jean Richepin. 93160 Noisy le Grand. Le site se trouve à
proximité de la gare « Noisy-Mont d’est » sur le RER A.
Durée du stage : 6 mois.
4. Connaissances requises :
Le candidat, de profil universitaire ou ingénieur statisticien devra :
o posséder une solide culture de base en Statistique
o présenter de bonnes aptitudes en développement SAS et R.
o être autonome et posséder un fort sens de l’initiative.
5. Contact :
Alain Dessertaine. Tel. : 07 86 63 30 91. Email : [email protected]
Fabrice Rossi. Email : [email protected]

Documents pareils