programme - Département de mathématiques de Nancy
Transcription
programme - Département de mathématiques de Nancy
Cours du Master 2, Spécialité MFA UE M2-MFA-SE2 : Méthodes et algorithmes de traitement numérique des signaux et des données Enseignant responsable : Philippe Morosini Description de l’UE : Ce module comprend : – deux cours parmi le choix suivant : • Théorie et pratique en science des données ; • Modélisation, analyse spectrale et gestion de l’incertain ; • Représentations parcimonieuses ; – un mini-projet portant sur la compréhension, l’implantation et le test d’un algorithme de traitement du signal issu de la littérature. Description des cours : Théorie et pratique en sciences des données Data Science, Data Mining, Big Data... Ces termes ont envahi le monde des entreprises en seulement quelques années. La collecte informatique et l’analyse de données sont devenues des enjeux économiques et politiques majeurs. Tous les domaines de la société sont concernés, y compris la vie privée des individus, et ce pour le meilleur comme pour le pire (surveillance des individus, ciblage marketing, etc). Avec le développement de l’économie des données, est apparu le nouveau métier de ” data scientist ” exigeant un savoir-faire solide aussi bien en informatique qu’en statistiques et machine learning. Ce cours propose une introduction aux différentes méthodes théoriques et outils pratiques dont dispose le ” data scientist ” pour analyser et exploiter ses données. Le cours abordera la fouille de données en général et en particulier les moteurs de recherche d’information, les systèmes de recommandation, le traitement et la fouille de données textuelles, la fouille de flux de données, l’analyse des réseaux sociaux, les outils de visualisation de données, le stockage et l’interrogation de bases de données NoSQL, les architectures Big Data pour le traitement parallèle de grandes quantités de données, la protection des données. Une attention particulière sera accordée à la mise en pratique des concepts et des algorithmes présentés en cours. Pour ce faire, le cours s’appuiera sur différents outils logiciels et langages de programmation (Python, R, Weka, Scikit-learn). Bibliographie : “Mining of Massive Datasets”, by Jure Leskovec, Anand Rajaraman, and Jeffrey D. Ullman (Cambridge University Press, 2014). “Data Mining : Concepts and Techniques”, 3rd edition by Jiawei Han, Micheline Kamber and Jian Pei (Morgan Kaufmann, 2011). “Data Mining : Practical Machine Learning Tools and Techniques”, Third Edition by Ian H. Witten and Eibe Frank (Morgan Kaufmann, 2011). “Introduction to Information Retrieval”, by Christopher D. Manning ([ Cambridge University Press, 2008) Modélisation, analyse spectrale Le but de cet enseignement est d’exposer le corpus des méthodes, anciennes et plus récentes, d’analyse spectrale, c’est-à-dire de description de signaux dans le domaine des fréquences. L’analyse spectrale doit être perçue comme un élément d’une chaı̂ne de traitement du signal mettant en œuvre la notion de linéarité. En conséquence, la finalité d’une telle analyse n’est 1 jamais la simple visualisation d’un spectre. Conserver à l’esprit l’objectif ultime, de décision ou d’estimation, du traitement en question, est une clé indispensable pour aborder avec raison le choix d’une méthode d’analyse spectrale. On mettra l’accent sur les différents concepts sousjacents à chacune de ces méthodes et elles seront comparées selon différents critères, propres à l’analyse spectrale. Des aspects d’analyse non-paramétrique et paramétrique seront confrontés. On insistera pour ces approches sur le concept de modélisation (des signaux, des bruits), inhérent à toute démarche d’ingénierie. Bibliographie : http ://www.laurent-duval.eu/lcd-lecture-supelec-spectral-analysis.html Gilles Fleury, Analyse spectrale, Ellipses (2001). Lawrence S. Marple, Digital Spectral Analysis with Applications in C, FORTRAN, and MATLAB (Book/Disk), Prentice Hall, 1 edition (May 2003). Peter J. Brockwell, R. A. Davis , Time Series : Theory and Methods” (Springer Series in Statistics), Springer Verlag, 2nd edition (January 1991). Petre Stoica, Randolph L. Moses, Introduction to Spectral Analysis, Prentice Hall”, Facsimile edition (February 6, 1997). Gestion de l’incertain La gestion de l’incertitude dans les problèmes de décision (statique ou séquentielle) est l’objet principal de ce cours. En particulier, il sera question des réseaux bayésiens standards et dynamiques, des modèles de Markov cachés, du filtrage bayésien et des processus de décision de Markov standards et partiellement observables. Ces techniques donnent lieu à des applications dans les domaines de la prise de décision, la fusion de données, la reconnaissance de formes et d’autres. On essayera aussi de donner une vision unifiée de ces techniques et de fournir un lien vers les autres méthodes d’apprentissage numérique. Bibliographie : J. Pearl Probabilistic Reasoning in Intelligent Systems, Morgan Kaufman, 1988. F.V. Jensen Bayesian Networks and Decision Graphs, Springer-Verlag, 2000. K.B. Korb, A.E. Nicholson Bayesian Artificial Intelligence, Chapman & Hall/CRC, 2004. L. Rabinern, B.-H. Juang Fundamentals of Speech Recognition, Prentice Hall SP Series, 1993. R. J. Elliott et al. Hidden Markov Models : Estimation and Control, Springer, 1997. R.S. Sutton, A.G. Barto Reinforcement Learning. An Introduction, Cambridge, MA : MIT Press, 1998. O. Sigaud, O. Buffet Processus Décisionnels de Markov en Intelligence Artificielle - Tome 1 : Principes Généraux et Applications, Lavoisier, 2008. Représentations parcimonieuses L’augmentation de la précision et de la quantité des données numériques (phénomène dit “big data”) conduit à mettre en lumière le principe de parcimonie (ou rasoir d’Ockham), et à améliorer, en les rendant plus robustes, les approches classiques (échantillonnage, analyse de Fourier), et à développer de nouvelles méthodes d’analyse de données. L’objet de ce cours est de proposer un panorama des principes mathématiques (analyse temps-fréquence et décompositions en ondelettes, modélisation statistique, optimisation) et algorithmiques avancées (clustering, réduction de dimension non-linéaire) requis pour l’analyse exploratoire de données volumineuses (signaux, images), et l’extraction d’attributs pertinents. Ces concepts seront mis en œuvre au cours de travaux pratiques sur des données modélisées et réelles, et illustrées en débruitage, classification, compression ou échantillonnage. Bibliographie : http ://www.laurent-duval.eu/lcd-lecture-supelec-sparse-representations.html ”Spectral audio signal processing”, Julius O. Smith III, https ://ccrma.stanford.edu/ jos/sasp/sasp.html ”Wavelets and Subband Coding”, Martin Vetterli and Jelena Kovacevic, http ://www.waveletsandsubbandcoding.org/ ”Time-frequency toolbox”, Tutorial, François Auger, Patrick Flandrin, Paulo Gonçalvès and Olivier Lemoine, http ://gdr-isis.org/tftb/tutorial/ Prérequis : ils dépendent des cours suivis. Description du mini-projet 1ère partie : lire attentivement le ou les articles fournis, les critiquer, refaire les calculs puis en faire une courte (quelques pages) synthèse par écrit en faisant apparaı̂tre le résultat essentiel et l’algorithme proposé (ou la méthode à programmer). 2ème partie : programmer l’algorithme fourni (le cas échéant celui qui vous paraı̂t le mieux approprié lorsque l’article en décrit plusieurs) en utilisant le logiciel Matlab. Tester et critiquer, sur des exemples simples, l’algorithme et les résultats de l’article.