3 FAMILIARISATIONAVECLESANALYSESDECLASSIFICATION D

Transcription

3 FAMILIARISATIONAVECLESANALYSESDECLASSIFICATION D
3 FAMILIARISATION AVEC LES ANALYSES DE CLASSIFICATION D’IMAGES MULTISPECTRALES : LE CAS DES CLASSIFICATIONS DIRIGÉES 3.1 INTRODUCTION Dans cet exercice, que ce soit pour l’entraînement des classificateurs ou la validation de la classification, nous allons utiliser la carte matricielle des occupations du sol des États‐
Unis établie par la commission géologique des États‐Unis (USGS) par classification d’images Landsat acquises aux alentours de 2011. Les classes avec leur code numérique sont données par la suite. En excluant la classe neige/glace (12) ainsi que les classes du couvert végétal en Alaska (72, 73, 74) au total 16 classes sont d’intérêt pour cet exercice. Le but de cet exercice est de se familiariser avec la procédure de classification supervisée et d’étudier l’impact des corrections atmosphériques (et topographiques) sur la qualité des résultats d’une classification. 1
11 12 21 22 23 24 31 41 42 43 51 52 71 72 73 74 81 82 90 95 Open Water ‐ All areas of open water, generally with less than 25% cover or vegetation or soil Perennial Ice/Snow ‐ All areas characterized by a perennial cover of ice and/or snow, generally greater than 25% of total cover Developed, Open Space ‐ Includes areas with a mixture of some constructed materials, but mostly vegetation in the form of lawn grasses. Impervious surfaces account for less than 20 percent of total cover. These areas most commonly include large‐lot single‐family housing units, parks, golf courses, and vegetation Developed, Low Intensity ‐Includes areas with a mixture of constructed materials and vegetation. Impervious surfaces account for 20‐49 percent of total cover. These areas most commonly include single‐family housing units. Developed, Medium Intensity ‐ Includes areas with a mixture of constructed materials and vegetation. Impervious surfaces account for 50‐79 percent of the total cover. These areas most commonly include single‐family housing units. Developed, High Intensity ‐ Includes highly developed areas where people reside or work in high numbers. Examples include apartment complexes, row houses and commercial/industrial. Impervious surfaces account for 80 to 100 percent of the total cover. Barren Land (Rock/Sand/Clay) ‐ Barren areas of bedrock, desert pavement, scarps, talus, slides, volcanic material, glacial debris, sand dunes, strip mines, gravel pits and other accumulations of earthen material. Generally, vegetation accounts for less than 15% of total cover. Deciduous Forest ‐ Areas dominated by trees generally greater than 5 meters tall, and greater than 20% of total vegetation cover. More than 75 percent of the tree species shed foliage simultaneously in response to seasonal change. Evergreen Forest ‐ Areas dominated by trees generally greater than 5 meters tall, and greater than 20% of total vegetation cover. More than 75 percent of the tree species maintain their leaves all year. Canopy is never without green foliage. Mixed Forest ‐ Areas dominated by trees generally greater than 5 meters tall, and greater than 20% of total vegetation cover. Neither deciduous nor evergreen species are greater than 75 percent of total tree cover. Dwarf Scrub ‐ Alaska only areas dominated by shrubs less than 20 centimeters tall with shrub canopy typically greater than 20% of total vegetation. This type is often co‐associated with grasses, sedges, herbs, and non‐vascular vegetation. Shrub/Scrub ‐ Areas dominated by shrubs; less than 5 meters tall with shrub canopy typically greater than 20% of total vegetation. This class includes true shrubs, young trees in an early successional stage or trees stunted from environmental conditions. Grassland/Herbaceous ‐ Areas dominated by graminoid or herbaceous vegetation, generally greater than 80% of total vegetation. These areas are not subject to intensive management such as tilling, but can be utilized for grazing. Sedge/Herbaceous ‐ Alaska only areas dominated by sedges and forbs, generally greater than 80% of total vegetation. This type can occur with significant other grasses or other grass like plants, and includes sedge tundra, and sedge tussock tundra. Lichens ‐ Alaska only areas dominated by fruticose or foliose lichens generally greater than 80% of total vegetation. Moss ‐ Alaska only areas dominated by mosses, generally greater than 80% of total vegetation. Pasture/Hay ‐ Areas of grasses, legumes, or grass‐legume mixtures planted for livestock grazing or the production of seed or hay crops, typically on a perennial cycle. Pasture/hay vegetation accounts for greater than 20 percent of total vegetation. Cultivated Crops ‐ Areas used for the production of annual crops, such as corn, soybeans, vegetables, tobacco, and cotton, and also perennial woody crops such as orchards and vineyards. Crop vegetation accounts for greater than 20 percent of total vegetation. This class also includes all land being actively tilled. Woody Wetlands ‐ Areas where forest or shrub land vegetation accounts for greater than 20 percent of vegetative cover and the soil or substrate is periodically saturated with or covered with water. Emergent Herbaceous Wetlands ‐ Areas where perennial herbaceous vegetation accounts for greater than 80 percent of vegetative cover and the soil or substrate is periodically saturated with or covered with water. 2
3.2 MATÉRIEL 1. Image originale ALI_23112007_clip.pix 2. Images corrigées (atmosphère et atmosphère/topographie) de la Partie 2 de votre projet 3. Image NLCD_clip.pix extrait de la carte sur l’occupation du sol des USA avec les résultats de classification des images Landsat ÉTAPE PRÉPARATOIRE Votre image contient des marges avec des pixels dont la valeur est zéro. Également les lignes de balayage des différentes bandes spectrales ne commencent et ne finissent pas au même pixel à cause du mode séquentiel d’échantillonnage électronique du capteur. Avec les corrections géométriques et la rotation des images des valeurs aberrantes (même négatives) sont attribuées à ces pixels du début et de la fin des lignes de balayage. On peut créer un « masque » pour isoler ces pixels. Pour ce faire nous allons utiliser EASI‐Modeling. Avant nous allons créer un « bitmap » pour conserver l’information sur les pixels du masque. Cliquer droit sur le nom du fichier dans Files  New  Bitmap Layer. Par la suite Tools  EASI modeling Les pixels avec une valeur inférieure ou égale à 100 peu importe la bande spectrale parmi les neuf bandes d’ALI (%canal) font partie du masque (%%bitmap). Voici le résultat : 3
CLASSIFICATION DES DONNÉES D’ORIGINE 1. Afficher votre image ALI_23112007_clip.pix 2. Créer un Clone View et introduire votre Image NLCD_clip.pix (aide au choix des sites d’entrainement) View  Clone View Open NLCD_clip.pix (c’est image est directement affichée en pseudocoleurs selon la palette des couleurs choisie par le USGS : cette palette est indiquée comme Pseudocolor Tables : ) 3. Chaîner les deux affichages ainsi vous pouvez suivre la position de votre curseur sur les deux images en même temps. 4. Ajouter deux canaux 8 bits pour vos essais de classification dirigée : Cliquez droit sur le nom du fichier dans Files  New Raster Layer  2 dans channel type 8 bit Nous sommes prêts pour les essais et la classification finale 4
5. Dans Maps Votre MapArea  Menu (Analysis)Image Classification Supervised  ALI_23112007_clip.pix  6. Spécifier le composé couleur pour tracer vos sites d’entrainement, les 4 canaux input pour la classification, votre canal d’entrainement ainsi que le canal pour recevoir votre image classifiée. 7. Dans le Training Site Editor tapez sur ClassNew et commencer à tracer les sites d’entrainement (polygones/rectangles). À chaque fois que vous voulez changer de classe il faut aller dans le menu Class New et ajuster les paramètres à votre guise : Nom de la classe; couleur; Threshold (combien d’écarts types de la moyenne par bande s’étend le domaine d’une classe) et Bias (probabilité a priori). Dans nos essais on laissera le thershold à 3.00 et le Bias à 1.00 (classes équiprobables). Donner un numéro de classe compatible au code NLCD pour faciliter la comparaison de vos résultats avec la carte thématique. Remarque 1 : Il ne faut oublier de désactiver le vector editor à chaque fois que vous changer de classe 5
Remarque 2 : Utiliser la gomme à effacer si vous voulez éliminer un polygone et la désactiver si vous avez fini Remarque 3 : Essayer d’inclure par classe des sites d’entaînement représentant visuellement différentes situations de la même classe. Ici un exemple avec la classe eau : 8. Finalement on obtient un tableau de la sorte (exemple avec trois classes) : 6
9. Avant de faire Save&Close et passer à l’étape de la classification vous devez vérifier la qualité de vos sites d’entrainement et si nécessaire ajouter de nouveaux par classe, recommencer une classe etc. GEOMATICA vous offre une panoplie de possibilités en utilisant le Tools du Training Site Editor (ou cliquer gauche sur la ligne d’une classe). Ainsi vous pouvez visualiser les statistiques (moyennes – écarts types) par classe; créer des diffusiogrammes par classe; examiner la séparabilité des classes ou les histogrammes et même faire un «classification preview» pour constater visuellement les résultats escomptés. Nous examinerons ici la qualité des sites d’entainement via la séparabilité des classes : Tools  Signature Separability La séparabilité mesure le degré de chevauchement entre deux distributions multinormales chacune représentant la densité de probabilité d’une classe donnée. Plus ces distributions sont éloignées moins d’erreurs de classification seront commises. Exemple ici avec une seule bande spectrale : la classe A présente un certain chevauchement (zone grise) avec la classe B mais il est bien éloignée de la classe C. Donc bonne séparabilité entre A et C mais risques d’erreur entre A et B et éventuellement, dépendant de l’algorithme de classification, des pixels non classifiés. 7
Les deux mesures proposées par GEOMATICA (Battacharrya et Divergence Transformée) utilisent des formulations différentes impliquant les moyennes et les matrices de variance‐
covariance par paire de classes. Toutes deux nous donnent la valeur 2 si les classes sont bien éloignées et 0 si les deux classes sont identiques. Généralement avec une valeur <1.5 (pour d’autres 1.7) nous pouvons s’attendre à des confusions importantes entre les deux classes. Exemple ici avec la divergence transformée (la mesure la plus souvent urilisée). On observe que selon nos sites d’entraienement pour les trois classes sont parfaitement séparables. Remarque : un message de la sorte peu apparaître. Cliquer sur ok et continuer. Faites par la suite un CLASSIFICATION PREVIEW avec l’algorithme MAXIMUM LIKELIHOOD with NULL CLASS (Maximum de vraisemblance avec classe nulle  pixels non classifiés). S’il y a beaucoup de pixels non classifiés (pixels en noir) ceci signifie qu’il faut prendre plus de sites d’entrainement pour certaines classes afin de bien capter la variabilité intra‐classes. 8
Pour modifier vos sites d’entraiement Tools  Show training areas  Affichage de votre composé couleur avec les sites d’entrainement  cliquez sur votre tableau la classe demandée et tracer vos nouveaux polygones  Save ou Save&Close si vous êtres satisfaits. À REMETTRE : Le rapport sur la séparabilité des classes une fois les sites d’entrainement considérés de qualité. On passe maintenant à la classification finale 10. MAPS Cliquer droit sur Classification MetaLayer  Run Classification  Choix du classificateur affichage de l’image classifiée (maintenant dans le Output channel) ainsi que du rapport de classification UN PETIT MOT SUR LES CLASSIFICATEURS PROPOSÉS PAR GÉOMATIQUA : A. Ils sont tous paramétriques B. MAXIMUM LIKELIHOOD (Maximum de vraisemblance) : C’est l’algorithme standard avec classes multinormales (voir vos notes et ppt). Dans cette option les pixels non classifiés à cause des statistiques des sites d’entrainement sont classifiés de force dans une ou l’autre des classes en utilisant les principes du classificateur par distance minimale; C. MAXIMUM LIKELIHOOD WITH NULL CLASS : La même chose que A sauf qu’ici les pixels non‐classifiés sont laissés tels quels (classe nulle) D. PARALLELPIPED : Voir votre ppt E. PARALLELPIPED WITH MLC TIEBREAKER : La même chose que D sauf qu’en cas de conflit (chevauchement entre les boîtes des classes) on fait appel au maximum de vraisemblance pour le résoudre. Si même cette opération échoue le pixel reste non classifié F. MINIMUM DISANCE : voir votre ppt. 9
Un exemple d’un rapport de classification obtenu tiré d’un autre cas de classification dirigée Bilan pour l’ensemble de l’image
Qualité
de
vos
sites
d’entrainement :
Average accuracy  moyenne de
la diagonale de la matrice
Overall accuracy  Moyenne de
la diagonale pondérée par le
nombre de pixels sur le total,
(4748/66443)*100 =7.15 +
(4192/66443)*87.99 = 5.55 +
(6041/66443)*94.92 = 8.63+ …
== 84.41%
Coefficient kappa Mesure de
qualité tenant compte à la fois
des pixels bien classifiés et mal
classifiés (% hors diagonale).
Parfait k =1; mauvais kappa <
0.5. Selon les intervalles de
confiance établis nous pouvons
dire que c’est un résultat
acceptable (très proche de 0.81)
On verra la semaine prochaine
comment utiliser le kappa et
son écart type pour comparer
les
résultats
des
deux
classificateurs.
À REMETTRE : l’images classifiée + le rapport de classification + un bref commentaire sur la qualité des résultats d’après les mesures extraites des vos sites d’entrainement. On passe maintenant à l’étape d’analyse des résultats de la classification. On utilisera le classificateur avec les meilleurs résultats selon l’étape précédente. 11. La façon proposée par GEOMATICA pour juger de la qualité des résultats d’un classificateur implique un ensemble de pixels localisés au hazard dans votre image (tirage au sort des coordonnées des pixels). Vous pouvez varier le nombre d’échantillons. GEOMATICA vous indique alors la position des ces pixels et vous devez introduire la classe « vraie » échantillon par échantillon . Une matrice de confusion est alors constuite similaire à celle du point 10 avec les mesures d’exactitude et de kappa. 10
Pour ce faire MAPS Classification MetaLayer on clique droit  Post classification analysis Accuracy assesment  Select Classified Image (votre canal output)  Load Reference Image (choisir une seule bande, ex. rouge, pour une meilleure visibilité des pixels tirés au hazard)  Generate Random Sample : La fenêtre suivante s’ouvre où on spécifie le nombre d’échantillons ainsi que si l’on veux inclure seulement nos classes et/ou stratifier les échantillons selon l’étendue des classes touvée par le classificateur. La fenêtre principale à droite contient la liste d’échantillons et à gauche nous avons nos classes. On clique sur chacun de points échantillonés et le point est indiqué sur l’image affichée. Nous devons alors indiquer quelle est sa classe vraie. En consultant notre carte NLCD on introduit le numéro de classe. Cette façon de faire est une opération statistique de base dans ce type de problèmes. Normalement une centaine d’échantillons est recommandée. Cependant repéter cet exercice 100 fois c’est une opération fastidieuse.De plus il est parfois difficile de juger c’est quoi la classe à attribuer à ce point. Il y a une autre façon de faire (sites tests) que l’on verra plus loin dans notre cours. Choisir une trentaine de points (le minimum pour les tests statistiques) et identifier leur vraie classe. Par la suite on passe à Accuracy report et l’opération est comptétée. À remettre le résultat avec vos 30 points ainsi qu’un bref commentaire sur la qualité des résultats du classificateur. Répéter cet exercice avec l’image corrigée pour les effets atmosphériques ainsi que l’image corrigée pour les effets atmosphériques et topographiques. Utiliser les mêmes sites d’entraiment. Est‐ce que vos résultats de validation montrent une quelconque amélioration? Commentez. 11

Documents pareils