programme - Département de mathématiques de Nancy

Transcription

programme - Département de mathématiques de Nancy
Cours du Master 2, Spécialité MFA
UE M2-MFA-SE2 : Méthodes et algorithmes de traitement
numérique des signaux et des données
Enseignant responsable : Philippe Morosini
Description de l’UE :
Ce module comprend :
– deux cours parmi le choix suivant :
• Théorie et pratique en science des données ;
• Modélisation, analyse spectrale et gestion de l’incertain ;
• Représentations parcimonieuses ;
– un mini-projet portant sur la compréhension, l’implantation et le test d’un algorithme de
traitement du signal issu de la littérature.
Description des cours :
Théorie et pratique en sciences des données
Data Science, Data Mining, Big Data... Ces termes ont envahi le monde des entreprises en
seulement quelques années. La collecte informatique et l’analyse de données sont devenues des
enjeux économiques et politiques majeurs. Tous les domaines de la société sont concernés, y
compris la vie privée des individus, et ce pour le meilleur comme pour le pire (surveillance
des individus, ciblage marketing, etc). Avec le développement de l’économie des données, est
apparu le nouveau métier de ” data scientist ” exigeant un savoir-faire solide aussi bien en
informatique qu’en statistiques et machine learning. Ce cours propose une introduction aux
différentes méthodes théoriques et outils pratiques dont dispose le ” data scientist ” pour analyser
et exploiter ses données.
Le cours abordera la fouille de données en général et en particulier les moteurs de recherche
d’information, les systèmes de recommandation, le traitement et la fouille de données textuelles, la fouille de flux de données, l’analyse des réseaux sociaux, les outils de visualisation
de données, le stockage et l’interrogation de bases de données NoSQL, les architectures Big
Data pour le traitement parallèle de grandes quantités de données, la protection des données.
Une attention particulière sera accordée à la mise en pratique des concepts et des algorithmes
présentés en cours. Pour ce faire, le cours s’appuiera sur différents outils logiciels et langages
de programmation (Python, R, Weka, Scikit-learn).
Bibliographie :
“Mining of Massive Datasets”, by Jure Leskovec, Anand Rajaraman, and Jeffrey D. Ullman
(Cambridge University Press, 2014).
“Data Mining : Concepts and Techniques”, 3rd edition by Jiawei Han, Micheline Kamber and
Jian Pei (Morgan Kaufmann, 2011).
“Data Mining : Practical Machine Learning Tools and Techniques”, Third Edition by Ian H.
Witten and Eibe Frank (Morgan Kaufmann, 2011).
“Introduction to Information Retrieval”, by Christopher D. Manning ([ Cambridge University
Press, 2008)
Modélisation, analyse spectrale
Le but de cet enseignement est d’exposer le corpus des méthodes, anciennes et plus récentes,
d’analyse spectrale, c’est-à-dire de description de signaux dans le domaine des fréquences.
L’analyse spectrale doit être perçue comme un élément d’une chaı̂ne de traitement du signal
mettant en œuvre la notion de linéarité. En conséquence, la finalité d’une telle analyse n’est
1
jamais la simple visualisation d’un spectre. Conserver à l’esprit l’objectif ultime, de décision
ou d’estimation, du traitement en question, est une clé indispensable pour aborder avec raison
le choix d’une méthode d’analyse spectrale. On mettra l’accent sur les différents concepts sousjacents à chacune de ces méthodes et elles seront comparées selon différents critères, propres à
l’analyse spectrale. Des aspects d’analyse non-paramétrique et paramétrique seront confrontés.
On insistera pour ces approches sur le concept de modélisation (des signaux, des bruits), inhérent
à toute démarche d’ingénierie.
Bibliographie :
http ://www.laurent-duval.eu/lcd-lecture-supelec-spectral-analysis.html
Gilles Fleury, Analyse spectrale, Ellipses (2001).
Lawrence S. Marple, Digital Spectral Analysis with Applications in C, FORTRAN, and MATLAB (Book/Disk), Prentice Hall, 1 edition (May 2003).
Peter J. Brockwell, R. A. Davis , Time Series : Theory and Methods” (Springer Series in
Statistics), Springer Verlag, 2nd edition (January 1991).
Petre Stoica, Randolph L. Moses, Introduction to Spectral Analysis, Prentice Hall”, Facsimile
edition (February 6, 1997).
Gestion de l’incertain
La gestion de l’incertitude dans les problèmes de décision (statique ou séquentielle) est l’objet
principal de ce cours. En particulier, il sera question des réseaux bayésiens standards et dynamiques, des modèles de Markov cachés, du filtrage bayésien et des processus de décision de
Markov standards et partiellement observables. Ces techniques donnent lieu à des applications
dans les domaines de la prise de décision, la fusion de données, la reconnaissance de formes
et d’autres. On essayera aussi de donner une vision unifiée de ces techniques et de fournir un
lien vers les autres méthodes d’apprentissage numérique.
Bibliographie :
J. Pearl Probabilistic Reasoning in Intelligent Systems, Morgan Kaufman, 1988.
F.V. Jensen Bayesian Networks and Decision Graphs, Springer-Verlag, 2000.
K.B. Korb, A.E. Nicholson Bayesian Artificial Intelligence, Chapman & Hall/CRC, 2004.
L. Rabinern, B.-H. Juang Fundamentals of Speech Recognition, Prentice Hall SP Series, 1993.
R. J. Elliott et al. Hidden Markov Models : Estimation and Control, Springer, 1997.
R.S. Sutton, A.G. Barto Reinforcement Learning. An Introduction, Cambridge, MA : MIT
Press, 1998.
O. Sigaud, O. Buffet Processus Décisionnels de Markov en Intelligence Artificielle - Tome 1 :
Principes Généraux et Applications, Lavoisier, 2008.
Représentations parcimonieuses
L’augmentation de la précision et de la quantité des données numériques (phénomène dit
“big data”) conduit à mettre en lumière le principe de parcimonie (ou rasoir d’Ockham), et
à améliorer, en les rendant plus robustes, les approches classiques (échantillonnage, analyse de
Fourier), et à développer de nouvelles méthodes d’analyse de données. L’objet de ce cours est de
proposer un panorama des principes mathématiques (analyse temps-fréquence et décompositions
en ondelettes, modélisation statistique, optimisation) et algorithmiques avancées (clustering,
réduction de dimension non-linéaire) requis pour l’analyse exploratoire de données volumineuses
(signaux, images), et l’extraction d’attributs pertinents. Ces concepts seront mis en œuvre au
cours de travaux pratiques sur des données modélisées et réelles, et illustrées en débruitage,
classification, compression ou échantillonnage.
Bibliographie :
http ://www.laurent-duval.eu/lcd-lecture-supelec-sparse-representations.html
”Spectral audio signal processing”, Julius O. Smith III,
https ://ccrma.stanford.edu/ jos/sasp/sasp.html
”Wavelets and Subband Coding”, Martin Vetterli and Jelena Kovacevic,
http ://www.waveletsandsubbandcoding.org/
”Time-frequency toolbox”, Tutorial, François Auger, Patrick Flandrin, Paulo Gonçalvès and
Olivier Lemoine, http ://gdr-isis.org/tftb/tutorial/
Prérequis : ils dépendent des cours suivis.
Description du mini-projet
1ère partie : lire attentivement le ou les articles fournis, les critiquer, refaire les calculs puis
en faire une courte (quelques pages) synthèse par écrit en faisant apparaı̂tre le résultat essentiel
et l’algorithme proposé (ou la méthode à programmer).
2ème partie : programmer l’algorithme fourni (le cas échéant celui qui vous paraı̂t le mieux
approprié lorsque l’article en décrit plusieurs) en utilisant le logiciel Matlab. Tester et critiquer,
sur des exemples simples, l’algorithme et les résultats de l’article.

Documents pareils