Énoncé du devoir #2
Transcription
Énoncé du devoir #2
Apprentissage et reconnaissance (GIF-4101 / GIF-7005) Département de génie électrique et de génie informatique Automne 2010 Devoir 2 Instructions : – GIF-4101 : Le devoir est réalisé en équipe de deux à trois étudiants. – GIF-7005 : Le devoir est réalisé individuellement. – Utilisez Matlab et PRTools à chaque fois que c’est nécessaire. – Remise : copie papier du rapport durant le cours du vendredi. – Date limite : au plus tard le vendredi 15 octobre, à 13h30. Pondération : Ce devoir compte pour 5% de la note finale. 1. Algorithme Espérance-Maximisation (5pt) Une variable suivant une loi de Bernouilli multivariée à D dimensions, p(x|µ) ∼ B(1, µ), est décrite par l’équation suivante : p(x|µ) = D Y µxi i (1 − µi )(1−xi ) , i=1 où x = [x1 x2 · · · xD ]T est un vecteur de variables aléatoires booléennes xi ∈ {0, 1}, et µ = [µ1 µ2 · · · µD ]T est la paramétrisation de la loi de probabilité. Supposons que l’on veut calculer l’implémentation de l’algorithme Espérance-Maximisation pour une densité-mélange avec K composantes, chacune suivant une loi de Bernoulli multivariée, p(xt |Gj ) ∼ B(1, µj ), définie comme suit : p(x|M) = K X p(xt |Gj )P (Gj ), j=1 avec M = {µ1 , µ2 , . . . , µK }. (a) Donnez le développement de la fonction Q(Φ|Φl ) utilisée à l’étape E. (b) Donnez le développement de la fonction de mise à jour des valeurs µj,i de l’étape M. (c) Donnez le pseudo-code de l’implémentation de l’algorithme EM pour une densité-mélange de composantes suivant une loi de Bernoulli multivariée. Prenez bien soin de spécifier toutes les équations nécessaires pour calculer les variables de l’algorithme. (d) Développez (en quelques phrases, sans verbiage) les circonstances pratiques où il est intéressant, selon vous, d’utiliser cette version de l’algorithme EM ? 1 2. Transformation blanchissante (5pt) Soit les six données suivantes en deux dimensions, où chaque colonne est le vecteur [x1 x2 ]T de chaque donnée. X= 1.89 1.75 2.1 0.71 1.02 1.45 0.92 0.78 1.05 0.57 0.65 0.8 (a) En supposant que les données suivent une loi multinormale, tracez en trois dimensions la densité de probabilité correspondant aux données, en utilisant une estimation du vecteur moyen µ et de la matrice de covariance Σ. (b) Tracez la courbe de contour en deux dimensions correspondant à une distance de Mahanalobis au vecteur moyen de Dm (x) = 1. (c) Donnez le vecteur unitaire w correspondant à la direction de plus grande variance (première composante principale) de ces données. (d) Donnez l’équation matricielle de type A(x − b), avec valeurs numériques de la matrice A et du vecteur b, correspondant à une transformation blanchissante de ces données. (e) Affichez les données blanchies dans une figure en deux dimensions et estimez le vecteur moyen µ et la matrice de covariance Σ des données blanchies. 3. Analyse en composantes principales et analyse discriminante linéaire (5pt) Soit les trois jeux de données suivants. – Iris de Fisher : jeu de 150 données pour l’identification d’iris, avec données en quatre dimensions et trois classes. http://wcours.gel.ulaval.ca/2010/a/GIF4101/default/8fichiers/iris.csv – Balance : jeu de 625 données pour modéliser des résultats expérimentaux en psychologie, avec données en quatre dimensions et trois classes (balancé, gauche et droite). http://wcours.gel.ulaval.ca/2010/a/GIF4101/default/8fichiers/balance.csv – Optidigits : 3823 images de chiffres imprimés, avec données en 64 dimensions et 10 classes. http://wcours.gel.ulaval.ca/2010/a/GIF4101/default/8fichiers/optdigits.csv En un premier temps, appliquez une analyse en composantes principales à chacun de ces jeux de données. (a) Pour chaque jeu de données, donnez le nombre de composantes permettant de capturer 80 % de la variance. (b) Donnez les dimensions qui influencent le plus la direction du vecteur correspondant à la variance principale. (c) Tracez les données en deux dimensions, en utilisant les deux premières composantes principales. En un deuxième temps, appliquez une analyse discriminante linéaire à ces données. (d) Tracez les données projetées selon l’analyse discriminante linéaires en deux dimensions, en utilisant les deux premiers axes de l’hyperplan si les données comportent plus de trois classes (deux composantes principales de la matrice S−1 W SB ). (e) Déterminez le taux de classement avec un classifieur à la plus proche moyenne appliqué à la projection des données obtenue par l’analyse discriminante linéaire. Comparez vos résultats avec une projection de dimensionnalité identique, obtenue par une analyse en composantes principales. 2 4. Segmentation d’images (5pt) Soit les trois images suivantes, où la couleur de chaque pixel est représentée par 24 bits (rouge, vert et bleu représentés avec 256 valeurs possibles chacun). – Girafe http://wcours.gel.ulaval.ca/2010/a/GIF4101/default/8fichiers/girafe.png – Fruits http://wcours.gel.ulaval.ca/2010/a/GIF4101/default/8fichiers/fruits.png – Lena http://wcours.gel.ulaval.ca/2010/a/GIF4101/default/8fichiers/lena.png Utilisez l’algorithme K-means pour faire un compression des couleurs utilisées dans une colormap de K = 4, K = 16 et K = 64 couleurs. Donnez les images obtenus dans votre rapport pour chaque cas et commentez les résultats obtenus. Assurez-vous d’utiliser la fonction KMEANS de la Statistics Toolbox Matlab et non celle de PRTools. Pour prioriser la version de la Statistics Toolbox, déplacez l’inclusion de PRTools plus bas de la liste dans le répertoire de recherche des librairies Matlab, après le répertoire d’inclusion de la librairie. Pour lire et écrire les fichiers d’images, vous pouvez utiliser les fonctions IMREAD et IMWRITE de l’Image Processing Toolbox de Matlab. Ces librairies sont installées sur les ordinateurs des laboratoires informatiques du département de génie électrique et de génie informatique. FIN 30/09/2010 AD+CG 3