Notes
Transcription
Notes
CHAPITRE 4 Détection des arêtes d’une image Une image comporte beaucoup trop d’informations pour que l’on puisse tenter une analyse de cette dernière au niveau de ses valeurs d’éclairement en chaque pixel. Ainsi, une (petite) image de dimensions 256x256 comporte 65,536 pixels contenant chacun une valeur d’éclairement. Par contre, nous pouvons faire porter l’analyse sur les arêtes contenues dans l’image, ce qui limite de beaucoup la complexité de l’analyse. Les arêtes sont définies comme les variations brusques de l’éclairement et correspondent à des attributs physiques de la scène tridimensionnelle observée. La détection des arêtes nous permet de construire le croquis, le premier niveau de représentation interne du modèle computationnel du système de vision. Un algorithme de stéréoscopie pourrait être appliqué par la suite et consiste à identifier une même primitive sur les deux images d’éclairement gauche et droite et à mesurer la différence de position des deux primitives, ce qui sera inversement proportionnel à la profondeur de ce point caractéristique. La section 4.1 établit la relation entre les différents attributs physiques de la scène et les primitives détectées sur les images d’éclairement. La détection des primitives sur l’image est détaillée à la section 4.2 tandis que la section 4.3 précise une méthode de détection multirésolution réalisée à l’aide de réseaux neuroniques. L’algorithme de stéréoscopie nécessite une localisation précise des primitives appariées. Une méthode pour amincir les arêtes détectées est présentée à la section 4.4. Finalement, une analyse multirésolution permet d’atténuer la présence des arêtes bruitées et fait l’objet de la section 4.5. 82 Détection des arêtes d’une image Chapitre 4 4.1 ATTRIBUTS DE LA SCÈNE OBSERVÉE La scène tridimensionnelle sous observation comporte plusieurs attributs que nous désirons détecter afin de construire le croquis, le premier niveau de représentation interne du modèle computationnel d’un système de vision. Ces primitives qui apparaissent sur les images d’éclairement d’entrée sont engendrées par des phénomènes physiques qui se produisent dans la scène observée comme le montre la figure 4.1. Ces attributs physiques sont projetés sur les deux 2 2 4 1 3 3 3 1. Occultations: masquage d’un objet 3. Marques : texture, albédo, etc. par un autre 2. Arêtes 3D: discontinuité du vecteur 4. Ombre: discontinuité de l’éclairage incident normal n Figure 4.1 Principaux attributs d’une scène tridimensionnelle. Phénomènes physiques pouvant intervenir dans une scène tridimensionnelle. Ces différents phénomènes sont projetés sur l’image d’éclairement sous forme de variations brusques d’éclairement. plans-images et apparaissent comme des arêtes, ou variations brusques de Section 4.1 Attributs de la scène observée 83 l’éclairement. Les attributs physiques de la scène qui sont traduits par des arêtes sur les images d’éclairement sont: 1. Le contour d’un objet qui masque partiellement un autre objet de la scène observée. Ce contour d’occultation empêche de détecter les attributs de l’objet masqué qui est derrière. 2. Les arêtes 3D, qui correspondent à une discontinuité du vecteur normal à la surface externe de l’objet. 3. Les différentes marques qui apparaissent sur des surfaces visibles de la scène. Ces marques peuvent provenir de la texture de la surface ou d’un changement d’albédo causé, par exemple, par un trait de crayon. 4. Le contour de l’ombre projetée sur des objets de la scène et provoquée par une discontinuité de l’éclairage incident. Les arêtes de l’image sont donc associées à des attributs identifiables de la scène tridimensionnelle sous observation. La détection et la localisation précise de ces attributs est une étape cruciale puisqu’elle permet d’alimenter l’algorithme de stéréo, entre autre. Cet algorithme, rappelons le, consiste à identifier les mêmes primitives sur les deux images d’éclairement et à mesurer leur position relative. Cette différence de position, appelée disparité, restitue la profondeur de cet attribut dans la scène. Une description plus complète des attributs d’une scène implique une analyse de ces attributs à plus d’une résolution spatiale. L’analyse à plus d’une résolution spatiale permet de mieux identifier les primitives composant la scène et d’éliminer les fausses arêtes qui ne correspondent pas à des attributs physiques de la scène mais sont plutôt causées par des artefacts tels les bruits de numérisation et de quantification. Une stratégie d’extraction des primitives d’une image pourrait donc consister à identifier les arêtes à chacun des niveaux de résolution spatiale de la représentation multirésolution des images d’éclairement, d’amincir les arêtes détectées à chaque niveau afin de mieux les localiser, puis d’utiliser l’information détectée aux autres niveaux de résolution afin de renforcer les arêtes correspondant à des attributs physiques de la scène et éliminer le plus possible les arêtes bruitées. 84 Détection des arêtes d’une image Chapitre 4 4.2 DÉTECTION DES VARIATIONS BRUSQUES D’ÉCLAIREMENT Un attribut physique de la scène tridimensionnelle sous observation est projetée sur le plan image par le processus de formation des images comme une variation brusque d’éclairement, ou arête. La figure 4.2 illustre une primitive de I ∇I ∇2I Figure 4.2 Imagerie d’une variation de normale à la surface. Attribut de scène (variation de la normale à la surface) et sa traduction sur l’image d’éclairement I. La variation d’éclairement peut être détectée soit comme un maximum de la dérivée première de l’image ou soit comme un passage par zéro de la dérivée seconde. scène et sa traduction sur le plan image. La variation résultante d’éclairement peut essentiellement être détectée de deux façons : 1. La variation peut être détectée par un maximum de la dérivée première directionnelle de l’image d’éclairement. Cette méthode possède l’avantage d’être relativement peu bruitée (il est reconnu que l’opération de dérivation est bruitée parce qu’elle amplifie les variations brusques) et se prête bien à une réalisation neuronique puisque l’activité d’un neurone représentant une arête sera justement maximale lorsqu’une arête sera détectée à cette position. On n’a donc pas besoin d’une couche supplémentaire dont les neurones Section 4.2 Détection des variations brusques d’éclairement 85 sont activés en présence d’arête. Par contre, une arête détectée comme un maximum de la dérivée première aura tendance à être large, surtout si les variations d’éclairement sont relativement douces. Il faudra donc prévoir un mécanisme d’amincissement afin de pouvoir localiser précisément les arêtes. 2. La variation peut être détectée par un passage par zéro de la dérivée seconde de l’image d’éclairement. Cette méthode possède l’avantage de permettre une localisation précise de l’arête puisque c’est exactement le passage par zéro qui détermine la localisation de l’arête. Par interpolation, il est même possible de localiser l’arête entre les pixels. De plus, il existe un opérateur simple, le Laplacien, qui permet de rendre la détection isotrope, c’est-à-dire qu’une connaissance a priori de l’orientation de l’arête n’est pas requise. Par contre, l’opération de dérivée seconde génère beaucoup plus de bruit que l’opération de dérivée première. Il s’ensuit qu’un plus grand nombre d’arêtes bruitées sont détectées; ces arêtes ne correspondent pas à des attributs physiques de la scène observée et il faudra donc trouver un moyen de les éliminer, ou tout au moins d’en atténuer la quantité. Le choix d’une méthode axée sur la détection d’un maximum de la dérivée première ou sur un passage par zéro de la dérivée seconde dépend principalement de la précision recherchée, du type d’information recherchée et du support choisi pour la réalisation matérielle. La recherche scientifique dans le domaine de la détection d’arêtes a été et est encore passablement active tant du côté de la détection par la dérivée première que dans celle par la dérivée seconde. La plupart de ces méthodes décrites dans la littérature filtrent d’abord l’image à analyser afin d’atténuer le bruit inhérent au processus de différentiation. Cette filtration correspond à analyser l’image à un niveau de résolution spatiale donné. La littérature sur la détection d’arêtes est vaste. Nous nous limitons aux méthodes différentielles et mettons volontairement de côté d’autres paradigmes 86 Détection des arêtes d’une image Chapitre 4 de détection d’arêtes telles les méthodes morphologiques (Chen, & Yan, 1989; Jang, & Chin, 1990; Moran, 1990), les méthodes utilisant la transformée de Hough (Ballard, 1981; Princen, Illingworth, & Kittler, 1990), les méthodes basées sur la minimisation d’un facteur coût (Tan, Gelfand, & Delp, 1992) ou les méthodes utilisant une approximation par splines (Zucker, David, Dobbins, & Iverson, 1988). Plusieurs bons articles ont été rédigés pour synthétiser les travaux sur la détection des arêtes. Le lecteur intéressé peut consulter (Basseville, 1979), l’article récent de (Boyer, & Sarkar, 1992) et l’article synthèse de (Torre, & Poggio, 1986). La plupart des livres qui traitent de vision informatique abordent la détection d’arêtes comme étant une étape cruciale du processus de vision. Les livres suivants nous ont inspiré dans nos travaux sur la détection d’arêtes : les deux manuels de référence classiques en intelligence artificielle (Barr, Cohen, & Feigenbaum, 1989; Cohen, & Feigenbaum, 1982), le livre en français de (Besançon, 1988), celui, classique, de (Gonzalez, & Wintz, 1977), un autre classique sur la vision informatique et biologique, le texte de (Levine, 1985) et enfin, un texte récent de (Jain, 1989). Comme nous l’avons mentionné plus haut, la détection d’arêtes peut être réalisée soit en détectant un maximum de la dérivée première ou un passage par zéro de la dérivée seconde. De plus, la détection peut être directionnelle ou isotrope. Une détection directionnelle indique la présence d’une arête dans une direction spécifiée tandis qu’une détection isotrope indique la présence d’une arête indépendamment de sa direction. Les sous-sections suivantes précisent l’état de l’art dans chacun de ces domaines de détection d’arêtes. 4.2.1 Maximum de la dérivée première directionnelle La détection d’arêtes par une mesure du maximum de la dérivée première de l’image calculée dans une direction spécifiée est une méthode de détection qui a fait l’objet de nombreuses recherches. Cette méthode offre l’avantage d’être peu bruyante à cause de l’utilisation de la dérivée première et offre la possibilité d’obtenir des arêtes minces en choisissant soigneusement la direction selon laquelle la dérivée est calculée. Il existe deux écoles dominantes : ceux qui calculent la dérivée en chaque point dans une direction précise et ceux qui calculent la dérivée en chaque point selon plusieurs directions déterminées à l’avance et qui choisissent la direction dominante comme étant la direction de l’arête. Section 4.2 Détection des variations brusques d’éclairement 87 Les méthodes basées sur le calcul de la dérivée en chaque point selon une direction spécifiée sont issues principalement des travaux de (Canny, 1986). Ce dernier a trouvé que l’opérateur optimal pour trouver une arête bruitée est la dérivée première directionnelle (selon la direction du gradient) d’une fonction gaussienne Gσ de résolution σ. Une arête est alors définie comme le maximum local (dans la direction du gradient) de l’opérateur Gn convolué avec l’image I. L’opérateur Gn est défini : Gn = ∂ G ∂n σ (4.1) où n est la direction du gradient. L’image est donc convoluée avec l’opérateur Gn, ou de façon équivalente, puisque les opérations de dérivation et de convolution sont linéaires : I*G n = I* ∂ ∂ Gσ = ( I*G σ ) ∂n ∂n (4.2) L’image peut d’abord être filtrée par le filtre passe-bas gaussien, puis la dérivée directionnelle est calculée en chaque pixel de l’image. C’est cette dernière approche qui est habituellement préconisée lors de la réalisation d’un détecteur de Canny, tel par exemple dans le système de traitement et d’analyse d’images Aphelion™. Les étapes pour la réalisation d’un détecteur de Canny sont alors : 1. I*G σ Convolution de l’image avec un filtre passe-bas gaussien. 2. ∇( I*G σ ) = D x, D y Calcul du gradient selon l’axe horizontal et vertical. 3. ∇( I*G σ ) = du gradient. D x2 + D y2 Calcul de l’amplitude 4. Un pixel est activé (indique la présence d’une arête) si son amplitude de gradient est maximum dans la direction du gradient. La valeur de l’amplitude du pixel doit donc être la plus grande par rapport aux deux valeurs d’amplitude (obtenues par interpolation linéaire) de part et d’autre du pixel dans la direction du gradient. 88 Détection des arêtes d’une image Chapitre 4 Cette opération de sélection a pour effet d’amincir considérablement la largeur détectée des arêtes. 5. Sélection des arêtes significatives. Une opération de seuillage avec hystérésis est appliquée sur l’image d’arêtes obtenue à l’étape précédente. Les pixels de l’image d’arêtes qui ont été activés à l’étape précédente : - sont conservés si leur valeur d’amplitude de gradient est supérieure à la valeur supérieure de seuil - ne sont pas conservés (mis à zéro) si l’amplitude est inférieure à la valeur inférieure de seuil - sont conservés si la valeur d’amplitude est comprise entre les deux valeurs de seuil et qu’un des pixels d’arêtes voisins a été conservé parce que sa valeur d’amplitude dépassait la valeur supérieure du seuil. C’est un processus itératif qui évolue de telle sorte que les pixels dont l’amplitude de gradient est située entre les deux valeurs de seuil sont convertis en pixels d’arête s‘il existe un parcours pouvant les relier à un pixel d’arête dont l’amplitude est supérieure au seuil supérieur. (Shu, 1989) utilise une technique semblable à celle de Canny, mais rétrécit les arêtes tant selon l’axe horizontal que selon l’axe vertical, au lieu de rétrécir l’arête selon l’axe dans la direction du gradient. Cette modification permet une simplification de la réalisation de l’algorithme par réseaux neuroniques puisque l’amincissement peut alors être réalisé par deux circuits de compétition pré-connectés, un selon l’axe horizontal et l’autre selon l’axe vertical. Le détecteur de Canny est potentiellement fort intéressant parce qu’il effectue automatiquement, avant même d’appliquer le seuil avec hystérésis, un amincissement très efficace des arêtes. Par contre, le choix du seuil supérieur pour enlever les arêtes de bruit est non-trivial et dépend beaucoup de l’image à ana- Section 4.2 Détection des variations brusques d’éclairement 89 lyser. Dans la méthode proposée par Canny, une arête de bruit sera définie en relation avec le choix d’une valeur maximum et minimum pour le seuil. Nous proposons au contraire, dans notre démarche, qu’une arête de bruit soit plutôt définie par rapport à une représentation multirésolution de l’image à analyser. De cette façon, une arête de bruit est identifiée par rapport au contenu de l’image, et non en fonction de la valeur arbitraire d’un seuil. La seconde école dominante, inspirée par l’équipe de Grossberg (Carpenter, Grossberg, & Mehanian, 1989; Gaussier, & Cocquerez, 1992; Grossberg, & Mingolla, 1985; Grossberg, & Todorovic, 1988; Grossberg, & Wyse, 1991), prône de débuter l’analyse par une détection des arêtes selon plusieurs directions pré-définies puis de choisir l’arête en chaque pixel selon l’orientation dominante détectée et selon l’orientation des arêtes dans le voisinage. Ces travaux s’inspirent largement de ce qui est connu du fonctionnement du cortex visuel chez les mammifères (Hubel, & Wiesel, 1959) et se prêtent donc particulièrement bien à une réalisation par réseaux neuroniques. La figure 4.3 illustre le fonctionnement de ce système de détection d’arêtes. Les principales étapes de la détection, qui correspondent aux différentes couches de cellules, sont : 1. Cellules simples : Cette couche constitue le premier étage du système de détection de contour. Les cellules simples détectent une arête dans une direction et un sens donnés et à une résolution spatiale spécifique qui dépend de l’étendue du champ récepteur. Les arêtes sont détectées selon 4 orientations : horizontale, 45o, verticale (tel qu’illustré sur la figure), et 135o. (Carpenter, et al., 1989) utilisent deux grosseur de champ récepteur, et donc deux échelles spatiales d’analyse. La spécification du champ récepteur détermine l’opération effectuée par la cellule. Une opération simple de différentiation entre le côté droit et gauche de la cellule est calculée dans le type de détecteur proposé par Carpenter et al, mais d’autres champs récepteurs sont possibles, telle l’utilisation d’une cellule de Gabor (Daugman, 1987) qui modélise assez bien les cellules simples biologiques ou l’utilisation 90 Détection des arêtes d’une image Chapitre 4 Max. + Figure 4.3 - - + Système BCS de Grossberg. Version simplifiée du système BCS (“Boundary Contour System”) développé par Grossberg et son équipe. La première rangée est constituée de cellules simples qui détectent les arêtes dans une direction et une orientation données. La seconde couche est constituée de cellules complexes qui ne sont sensibles qu’à l’orientation de l’arête. Les troisième et quatrième couches constituent les deux couches de cellules hypercomplexes. Les deux couches sont des étages de compétition/coopération qui diminuent le bruit près des arêtes et indiquent la présence d’une arête indépendamment de sa direction ou de son orientation. d’une cellule de Grossberg-Todorovic (Grossberg, et al., 1988) qui est construite à partir d’une combinaison pondérée de filtres orientés simulant des Différences de Gaussiennes (plus de Section 4.2 Détection des variations brusques d’éclairement détails à la sous-section 4.2.3). La fonction d’activation de la cellule simple en est une de rectification qui ne peut produire qu’une valeur de sortie positive ou nulle. 2. Cellules complexes : Le second étage du détecteur est composé de cellules complexes qui produisent une détection insensible à la direction du contraste. Pour ce faire, chaque cellule complexe est connectée aux deux cellules simples de même orientation et de même résolution spatiale mais de direction de contraste opposée. Les sorties de chacune des deux cellules simples sont alors additionnées et la cellule complexe est activée lorsqu’une des deux cellules simples l’est. À chaque pixel de l’image, on a une cellule complexe pour chacune des 4 orientations et pour chacune des 2 échelles spatiales, soit la moitié du nombre de cellules simples. 3. Cellules hyper-complexes : Les cellules hypercomplexes forment les deux derniers étages du détecteur. Ce sont deux étages de compétition qui servent à supprimer le bruit près des arêtes alors que le bruit loin des arêtes est atténué grâce à l’effet moyenneur des cellules simples et complexes. Le premier étage de compétition contribue spécifiquement à la diminution du bruit près des arêtes. Cet étage est un réseau de type “centre excitateur - voisinage inhibiteur”. Les cellules hyper-complexes au voisinage d’une cellule complexe sont connectées par des liens de poids positif (liens d’excitation) si les cellules sont dans l’axe d’orientation de la cellule complexe et en plus, sont elles-même orientées dans la même direction que la cellule complexe. Toutes les autres cellules hyper-complexes dans le voisinage de la cellule complexe sont connectées à cette dernière par des liens de poids négatifs 91 92 Détection des arêtes d’une image Chapitre 4 (liens d’inhibition). Les dimensions du voisinage sont choisies en fonction des échelles spatiales utilisées. Cet étage de compétition renforce les arêtes connectées, et donc les contours, et inhibe les arêtes isolées qui sont habituellement des arêtes bruitées. Le second étage de compétition est simplement un réseau de type “le gagnant emporte tout” qui sélectionne l’activité maximale à chaque position de pixel. Les cellules hyper-complexes du dernier étage du détecteur indiquent donc pour chaque position de pixel la présence d’une arête, quelque soit son orientation ou sa direction. 4. Interactions entre les deux échelles spatiales : Les cellules hyper-complexes possèdent des champs récepteurs dont les dimensions dépendent de l’échelle spatiale. Les cellules hyper-complexes à échelles fines suppriment le bruit près des arêtes et indiquent précisément la localisation des arêtes. Les cellules hypercomplexes à échelle grossière suppriment bien le bruit loin des arêtes mais n’indiquent pas précisément la localisation des arêtes. Une combinaison de ces deux cellules permet d’éliminer encore plus le bruit près et loin des arêtes. 5. Complétion du contour : Une dernière couche de cellules, appelées cellules bipolaires et non illustrée à la figure 4.3, permet de compléter le contour. Ces cellules sont activées s’il y a assez d’activation orientée de chaque côté (ou pôle) du centre du champ récepteur. Le modèle de Grossberg est intéressant parce qu’assez près du modèle biologique tel que nous le connaissons. Par contre, l’opération du réseau complet dépend énormément de facteurs qu’il faut fixer assez intuitivement et le réseau lui-même nécessite une quantité très considérable de neurones et de connexions, ce qui provoque de nombreux problèmes lors des simulations sur ordinateurs classiques. Section 4.2 Détection des variations brusques d’éclairement 93 De nombreuses applications ne nécessitent pas une détection d’arêtes orientées aussi précise et compliquée que celle préconisée par l’équipe de Grossberg. Dans ces cas, un simple masque orienté (par exemple, Sobel ou une dérivée de gaussienne (Wilson, & Bhalerao, 1992)) est convolué avec l’image afin de découvrir les arêtes sur l’image à une orientation donnée. La description des arêtes orientées contenues dans l’image à analyser peut alors être utilisée, par exemple, pour caractériser et classifier une image texturée (Lepage, Laurendeau, & Gagnon, 1992) ou pour servir d’entrée à un processus d’analyse de l’image de plus grande complexité tel un analyseur de Fourier (Freeman, & Adelson, 1990). Une autre application (Brzakovic, Patton, & Wang, 1991) utilise des masques orientés pour trouver des arêtes candidates tandis que les arêtes résultantes sont choisies selon des règles heuristiques. 4.2.2 Maximum de la dérivée première isotrope La détection d’arêtes par une mesure du maximum de la dérivée première isotrope consiste à détecter la présence d’une arête par une seule mesure indépendante de la direction de l’arête. L’amplitude du gradient local est généralement utilisée comme paramètre mesuré. Cette méthode permet une réalisation simple du circuit de détection mais n’offre pas la robustesse de la méthode du maximum de la dérivée première directionnelle lorsqu’utilisée seule. La méthode de mesure du gradient utilisée seule n’offre pas une localisation précise de l’arête et est plus susceptible de détecter de fausses arêtes parce que c’est une méthode de détection ponctuelle qui ne tient pas compte des arêtes détectées dans le voisinage. Le détecteur d’arêtes proposé dans ce document (Lepage, & Poussart, 1991; Lepage, & Poussart, 1992) utilise cette méthode de détection surtout à cause de la simplicité du réseau neuronique résultant. L’amincissement des arêtes de même que la diminution du nombre de fausses arêtes sont obtenus grâce à une représentation multirésolution des images d’éclairement gauche et droite et à une interaction entre les arêtes détectées aux différentes échelles spatiales, comme il sera précisé à la section suivante. D’autres auteurs proposent des méthodes qui vont dans le même sens : (Chen, 1992) propose un opérateur morphologique qui préserve les arêtes lors d’un changement de l’échelle spatiale d’analyse; (Fleck, 1992) mesure la dérivée par une différence finie et améliore la détection en combinant des mesures de différence finie de différentes largeurs; et (McMichael, 1992) pour sa part, mesure le gradient de plusieurs images d’une scène éclairée de différentes façons et combine ces mesures, ce qui atténue l’effet de l’ombrage et renforce la détection des arêtes de l’image causées par des primitives de la scène. 94 Détection des arêtes d’une image Chapitre 4 4.2.3 Passage par zéro de la dérivée seconde directionnelle La détection d’arêtes par une mesure du passage par zéro de la dérivée seconde de l’image calculée dans une direction spécifiée est une méthode de détection qui a fait l’objet de relativement peu de recherche. Ce manque d’intérêt provient en grande partie de la popularité et de l’efficacité des méthodes de détection du passage par zéro de la dérivée seconde non-directionnelle que nous étudions à la sous-section suivante. Les méthodes non-directionnelles résultent en un réseau neuronique de détection plus simple et linéaire, ce qui n’est pas le cas pour une mesure de la dérivée seconde directionnelle. De plus, l’utilisation de la dérivée seconde génère intrinsèquement plus de bruit que pour l’utilisation de la dérivée première. Quelques auteurs ont néanmoins exploré cette avenue, parmi lesquels nous pouvons mentionner (Clark, & Lawrence, 1984) 4.2.4 Passage par zéro de la dérivée seconde isotrope La détection d’arêtes par une mesure du passage par zéro de la dérivée seconde de l’image calculée indépendamment de la direction est une méthode de détection qui fait l’objet d’une recherche diversifiée et qui suscite encore aujourd’hui énormément d’intérêt (Narbel, 1990; Ulupinar, & Medioni, 1990). Cet engouement pour cette méthode provient du fait qu’il existe un opérateur linéaire simple du second ordre qui détecte une variation brusque de l’éclairement indépendamment de la direction de la variation d’éclairement. Cet opérateur se nomme le Laplacien et opère sur un voisinage restreint du pixel d’intérêt. L’intérêt pour cette méthode provient aussi du fait que l’opérateur de Laplacien peut facilement être combiné avec un filtre passe-bas gaussien et ainsi rendre la détection d’arêtes sensible à l’échelle spatiale. Un dernier avantage apprécié de cette méthode est qu’elle permet, en principe, une localisation intra-pixel précise de l’arête puisque c’est un passage par zéro de l’image convoluée qui indique la présence d’une arête et que ce passage peut être interpolé à partir des valeurs positive et négative mesurées. La méthode de détection du passage par zéro de la dérivée seconde isotrope est issue principalement des travaux de Marr et Hildreth (Hildreth, 1983; Marr, & Hildreth, 1980). Le détecteur de Marr-Hildreth, comme il est habituellement appelé, s’inspire des connaissances physiologiques du système visuel des mammifères : on croit que les contrastes de l’image rétinienne à certaines échelles spatiales sont d’abord accentués par un opérateur neuronique semblable à celui proposé par Marr et Hildreth et que les passages par zéro de l’image résul- Section 4.2 Détection des variations brusques d’éclairement 95 tante de même que leur orientation sont ensuite détectés pour former le croquis. Voyons plus en détail l’opérateur de Marr-Hildreth. Les changements d’éclairement dans une image d’éclairement interviennent à différentes échelles spatiales. Leur détection optimale nécessite donc l’utilisation d’opérateurs de différentes largeurs. Le filtre passe-bas gaussien est un opérateur qui permet d’analyser, de « voir » l’image à différentes résolutions spatiales. C’est ainsi qu’un filtre gaussien à bande passante étroite brouille l’image de telle sorte que seuls les changements grossiers (à grande échelle) ressortent de l’image filtrée. Le filtre gaussien s’écrit : ( x2 + y2 ) 1 – -------------------2 G ( x, y ) = ------------- e 2σ 2πσ 2 (4.3) Le paramètre σ indique le niveau de résolution auquel l’image est observée. L’image à la résolution σ est donc : I σ ( x, y ) = G σ ( x, y )*I ( x, y ) (4.4) Les arêtes sont ensuite trouvées sur l’image filtrée à l’aide du Laplacien, qui est un opérateur différentiel isotrope de second ordre, le plus petit ordre qui assure que l’opérateur soit linéaire. Le Laplacien s’écrit : ∇2 = 0 1 0 2 2 ∂ ∂ ≅ 1 –4 1 + ∂x2 ∂y2 0 1 0 (4.5) L’isotropie assure qu’une arête, c’est-à-dire une variation brusque d’éclairement, soit détectée quelle que soit son orientation dans l’image. L’image résultante est alors la convolution du Laplacien et de l’image filtrée : I sortie ( x, y ) = ∇2( G σ ( x, y )*I ( x, y ) ) (4.6) Puisque les deux filtres, le Laplacien ∇2 et le filtre gaussien Gσ, sont linéaires et invariants, ils peuvent être combinés en un seul opérateur, le Laplacien de 96 Détection des arêtes d’une image Chapitre 4 gaussienne appelé aussi chapeau mexicain à cause de la forme de l’opérateur : –r 2 ∇ 2G –1 r 2 -------2σ 2 σ ( r ) = ------------4- 2 – -----2- e 2πσ σ (4.7) avec r = x 2 + y 2 la distance radiale. La figure 4.4 illustre la forme (inversée) de l’opérateur de Laplacien de gaussienne. La largeur w de la portion négative de l’opérateur est donnée par : w = 2 2σ (4.8) La largeur du lobe central de l’opérateur est donc proportionnelle à l’échelle spatiale d’observation σ. (Grimson, 1981)propose 4 canaux différents séparés chacun du précédent d’une octave pour l’analyse des arêtes de deux images stéréo d’entrée. Les canaux utilisés ont des largeurs du lobe central w de 4, 9, 17 et 35 pixels, ce qui correspondrait aux canaux d’analyse du système visuel humain (Wilson, & Bergen, 1979). w Figure 4.4 Laplacien de gaussienne. Opérateur « chapeau mexicain » qui détecte les variations d’éclairement en toute direction. L’opérateur de Marr-Hildreth est illustré ici pour un facteur d’échelle spatiale σ = 2. Section 4.2 97 Détection des variations brusques d’éclairement Selon Marr et Hildreth, le Laplacien de gaussienne est la limite d’une différence de gaussiennes DdG : 1 ∇ 2 G σ ( r ) ≅ DdG ( σ e, σ i ) = ----------------- e 2πσ e –r 2 --------22σ e 1 – ---------------- e 2πσ i –r 2 --------22σ i (4.9) où σ e = σ représente la variance d’excitation (filtre gaussien positif) tandis que σ i représente la variance d’inhibition (filtre gaussien négatif). L’équation 4.9 approxime un Laplacien de gaussienne par une différence de deux distributions gaussiennes lorsque : σ -----i = 1, 6 σe (4.10) Les cellules ganglionnaires, qui constituent le premier étage de traitement du système visuel chez les mammifères, ont un champ récepteur qui ressemble beaucoup à une différence de gaussiennes : le champ récepteur excitateur est une gaussienne de variance σe alors que le champ récepteur inhibiteur est une gaussienne plus large dans une proportion qui laisse croire que la fonction de ces cellules est effectivement d’appliquer l’équivalent d’un Laplacien de gaussienne sur l’image rétinienne afin d’accentuer les contrastes contenus dans l’image. La détection des arêtes d’une image est illustrée à la figure 4.5 où une cellule de type on-center (cellule P) est utilisée en conjonction avec une cellule de type off-center (cellule Q). Ce principe de détection peut facilement être étendu à la détection d’arêtes orientées de longueurs variables, comme il est illustré à la figure 4.6. 4.2.5 Détection des arêtes par apprentissage supervisé Les arêtes correspondent à des variations brusques d’éclairement. De telles variations sont détectées avec un opérateur de différentiation du premier ou du second ordre, opérateur qui sera le plus souvent combiné avec un filtre passebas afin de diminuer les artefacts générés par l’opération de différentiation. La traduction neuronique de ces opérateurs résulte en des connexions qui relient la couche image à la couche du croquis avec des poids fixes. Des recherches récentes explorent différentes formes d’apprentissage afin de trouver d’autres valeurs 98 Détection des arêtes d’une image Chapitre 4 P Q Figure 4.5 Différence de gaussiennes. Détection d’arêtes par deux opérateurs de différence de gaussiennes. Chaque cellule de détection comprend un champ récepteur d’excitation (cercle central) et un champ récepteur d’inhibition (cercle extérieur). P et Q sont deux cellules complémentaires qui produisent une sortie inversée l’une par rapport à l’autre. La sortie de la cellule ET est activée lorsque les deux cellules P et Q sont activées et donc qu’une arête est située entre les deux cellules. de poids des connexions qui parviennent à la couche du croquis. Moura et Martins (Moura, & Martins, 1991) utilisent un réseau à 3 étages. Les deux premiers étages sont interreliés par des liens à poids fixes qui réalisent un filtre passe-bas gaussien pour le premier étage et un masque de Sobel pour le second afin de détecter l’amplitude et la direction du gradient. Le dernier étage en est un de satisfaction de contraintes pour éliminer le bruit et construit des liens excitateurs entre des neurones voisins orientés perpendiculairement au gradient et des liens inhibiteurs entre des neurones voisins orientés parallèlement au gradient. Bhathia ετ αλ (Bhatia, Srinivasan, & Ong, 1991) proposent, à la même époque, un réseau à un seul étage, l’étage du croquis, relié à la couche de l’image d’éclairement. Chaque emplacement du croquis est occupé par quatre neurones, qui indiquent l’éclairement moyenne de même que la force et la direction de l’éventuelle arête détectée. Chaque groupe de 4 neurones du croquis sont interreliés par des liens inhibiteurs pour augmenter la compétition et chaque groupe est relié à un champ récepteur de 16x16 pixels en dessous, sur l’image d’éclairement. Deux séries de connexions composent le champ récepteur, une première à poids fixes réalise un filtre gaussien et l’autre série doit être entraînée de façon non-supervisée à l’aide d’une règle hebbienne modifiée. L’image uti- Section 4.2 Figure 4.6 Détection des variations brusques d’éclairement 99 Différence de gaussiennes orientée. Détection d’arêtes orientées par des opérateurs alignés et complémentaires de différence de gaussienne. La sortie de la cellule ET est activée lorsque toutes les cellules connectées à la porte sont activées. La configuration des opérateurs détermine la plage d’orientations qui est détectée (lignes pointillées sur la figure). lisée pour la phase d’entraînement est constituée de cercles concentriques pour avoir un bon échantillonnage d’arêtes de force et d’orientations variées. Par la suite, Etemad et Chellappa (Etemad, & Chellappa, 1993) proposent un réseau neuronique approximateur de fonctions et entraîné par rétro-propagation du gradient d’erreur pour résoudre le problème de détection d’arêtes. Le réseau proposé comporte une couche d’entrée de 3x3 qui balaie l’image d’éclairement, d’une couche cachée et d’une couche de sortie également de 3x3 qui représente l’arête détectée débarrassée du bruit. Un ingénieux système de vote entre les couches de sortie voisines permet de diminuer le bruit et les artefacts. Mkaouar et Lepage (Mkaouar, & Lepage, 1996) proposent le même type de réseau à rétro-propagation du gradient d’erreur, mais cette fois en utilisant une couche d’entrée de 5x5, 2 couches cachées, et un seul neurone à la sortie pour indiquer la présence ou l’absence d’une arête au centre de la couche d’entrée. Les résultats sont encourageants et des travaux se poursuivent pour interpréter les configurations de poids obtenues et améliorer les performances en diminuant le temps nécessaire pour l’apprentissage. 100 Détection des arêtes d’une image Chapitre 4 4.2.6 Détection multirésolution des arêtes par réseau neuronique Les réalisations neuroniques de détecteurs d’arêtes multirésolution ne font pas l’objet de recherche répandue probablement à cause de la complexité des modes de représentation de l’information visuelle multirésolution. (Lepage, & Crevier, 1994) proposent une extraction multirésolution des arêtes basée sur une représentation pyramidale et utilisant une neurone de vigilance à chaque niveau de la pyramide pour contrôler le renforcement des arêtes dans une direction basse → haute résolution. (Mkaouar, & Lepage, 1995) proposent une extraction multirésolution des arêtes en utilisant une pyramide pour accélérer les simulations et un filtre gaussien récursif pour la génération des niveaux de représentation multirésolution. Ce modèle leur sert de base pour générer la base d’apprentissage dans (Mkaouar, et al., 1996). 4.3 DÉTECTION NEURONIQUE DE L’AMPLITUDE DU GRADIENT Nous illustrons en détail dans ce document une détection d’arêtes basée sur la mesure du maximum de la dérivée première de l’image d’éclairement. Afin de diminuer le nombre d’arêtes bruitées détectées et afin d’amincir les arêtes détectées, la détection d’arêtes est effectuée à plusieurs résolutions spatiales et une interaction entre les arêtes détectées aux différentes échelles aide à obtenir un croquis précis et peu bruité. Les images d’éclairement gauche et droite sont décomposées en représentations multirésolutions selon une structure pyramidale. Chaque niveau de la pyramide représente l’image d’éclairement correspondante à une résolution spatiale σ. Les arêtes de l’image sont d’abord détectées à chacun des niveaux des deux pyramides. Afin de détecter le gradient de l’arête en chaque position de pixel de chacune des images, la dérivée partielle selon l’horizontale et la dérivée partielle selon la verticale sont calculées à l’aide de connexions latérales dans le voisinage 3x3 du pixel d’intérêt. Des masques de Sobel sont utilisés pour la mesure des dérivées partielles. Le champ récepteur pour la mesure des dérivées partielles est illustré à la figure 4.7. La sortie du neurone au pixel d’intérêt est égal à la somme de la valeur absolue des deux dérivées partielles, ce qui constitue une approximation de l’amplitude du gradient à cette position. Cette approximation s’avère suffisante pour les besoins de notre détecteur puisqu’elle sera toujours positive, comme l’amplitude, et qu’elle sera toujours plus grande Section 4.4 101 Amincissement des arêtes Gradient: dx dy sortie = |dx| + |dy| Figure 4.7 Champ récepteur de gradient. Champ récepteur pour la mesure d’une approximation du gradient. Les masques sont des masques de Sobel. Un cercle noir indique une connexion avec un poids négatif dont l’amplitude est proportionnelle à la grandeur du cercle. que la valeur de l’amplitude, et donc qu’elle accentuera la présence d’une arête. Les masques de Sobel utilisés ont comme valeurs de poids : –1 0 1 dx = – 2 0 2 –1 0 1 dy = –1 –2 –1 0 0 0 1 2 1 (4.11) Les arêtes détectées par une méthode de gradient sont la plupart du temps trop larges pour permettre une localisation précise de celle-ci. Le module suivant de traitement, le module stéréo, nécessite une localisation précise des arêtes appariées afin d’obtenir une mesure fiable et précise de la disparité. Nous devons donc amincir les arêtes détectées de telle sorte qu’un neurone activé représente une arête, et donc un maximum de la dérivée première. 4.4 AMINCISSEMENT DES ARÊTES L’amincissement des arêtes peut être réalisé de différentes façons (Jang, et al., 1990; Lam, Lee, & Suen, 1992). Nous proposons un simple réseau de compétition qui favorise les neurones les plus activés dans le groupe de compétition. 102 Détection des arêtes d’une image Chapitre 4 Un réseau de compétition est construit pour tous les groupes de 2x2 neurones de toutes les couches des deux pyramides gauche et droite. Le réseau de compétition est illustré à la figure 4.8 pour un groupe de 4 neurones. Le poids niveau n Figure 4.8 Réseau de compétition. Chaque regroupement de 2x2 neurones est interconnecté en réseau de compétition. La figure ne montre les connexions que pour un des neurones. Le même schéma se répète pour les autres neurones. Le lien d’excitation a un poids de 0,3 tandis que les liens d’inhibition provenant des autres neurones ont un poids de -0,1. La fonction d’activation des neurones est la fonction iac de Rumelhart-McClelland. Le circuit fonctionne de telle sorte que les un ou deux neurones les plus activés tendent vers une sortie pleinement activée tandis que la sortie des autres neurones décroît vers zéro. des connexions d’auto-excitation est de 0,3 tandis que le poids des connexions d’inhibition est de -0,11. La fonction d’activation des neurones à cette étape de la simulation est la fonction d’activation interactive et compétitive de Rumelhart & McClelland.L’équation d’activation iac est décrite par l’équation différentielle : dx = ( B – x )net – Ax dx = ( x – C )net – Ax net > 0 net ≤ 0 (4.12) avec : dx : x(n+1) - x(n). Différentielle de la valeur d’activation 1. Plusieurs valeurs de poids pour les liens d’inhibition et d’excitation ont été expérimentées. La combinaison mentionnée dans le texte est celle qui a donné les meilleurs résultats tant du point de vue vitesse de convergence vers un état stable que du point de vue capacité à conserver les arêtes les plus activées. Cette combinaison a été trouvé de façon plutôt empirique, quoiqu’un bon fonctionnement du réseau demande que le poids du lien d’excitation soit égal ou supérieur à la somme de la valeur absolue des poids d’inhibition. Section 4.5 Renforcement des arêtes 103 entre l’instant présent n+1 et l’instant précédent n. x : la valeur d’activation au temps n. A : facteur de décroissance. Paramètre de contre-réaction qui fait que le neurone se comporte comme un système discret du 1er ordre. Le facteur (1-A) détermine le degré de contreréaction. Une valeur de A unitaire indique l’absence de contre-réaction. B : valeur maximale atteinte par la valeur d’activation. C : valeur minimale atteinte par la valeur d’activation. net : ∑ Wij Oj : valeur nette à l’entrée du neurone. j Le comportement du réseau qui résulte de cette configuration est tel que la sortie des un ou deux neurones les plus activés tend vers une valeur de pleine activation tandis que la sortie des autres neurones décroît vers la valeur minimum d’activation du neurone, soit zéro. L’amincissement des arêtes assure une localisation précise des arêtes mais ne garantit pas que l’arête détectée soit générée par une primitive physique de la scène observée, et non une arête de bruit générée par la caméra ou le système d’échantillonnage. L’information détectée aux autres niveaux de la pyramide aide dans la décision de garder ou de rejeter une arête détectée. 4.5 RENFORCEMENT DES ARÊTES Selon (Marr, 1982), un attribut physique de la scène observée apparaît à au moins deux échelles spatiales consécutives sur l’image. Une arête qui n’apparaît que sur la couche à haute résolution est probablement une arête de bruit et doit donc être éliminée du croquis qui sera soumis à l’appariement stéréoscopique. 104 Détection des arêtes d’une image Chapitre 4 La représentation des arêtes aux différents niveaux de résolution spatiale de la pyramide est illustrée à la figure 4.9. Figure 4.9 Comportement des arêtes à multiple résolutions. Comportement des arêtes dans une représentation pyramidale multirésolution. Les arêtes qui correspondent à des caractéristiques physiques de la scène observée sont présentes à au moins deux niveaux consécutifs. Les arêtes de bruit produites par le système de caméra ou par la nature discrète de l’échantillonnage n’apparaissent qu’aux niveaux à haute résolution. La recherche sur le comportement des arêtes le long de l’espace d’échelle est abondante et diversifiée. L’ensemble de ces travaux a comme objectif d’identifier une arête sur une image à faible résolution et de projeter cette arête sur l’image à haute résolution afin de la localiser avec précision. (Bergholm, 1987), dans un papier majeur pour la poursuite d’arêtes à travers l’espace d’échelles, propose une poursuite continue d’une arête à partir d’une échelle à résolution grossière. Le changement d’échelle est continu et la variation du facteur d’échelle est telle que la position de l’arête poursuivie ne change pas plus d’un seul pixel. Lu et Jain (Lu, & Jain, 1989; Lu, & Jain, 1992) décrivent le comportement des arêtes le long de l’échelle spatiale. Ils détaillent le comportement de deux arêtes voisines qui peuvent se disloquer, se fusionner ou disparaître. (Mallat, & Zhong, 1992), pour leur part, étudient le comportement d’un détecteur de Canny à travers l’espace d’échelles spatiales. Un détecteur de Canny est équivalent à trouver les maxima locaux d’une transformée d’ondelettes. L’article est une étude des propriétés des arêtes multirésolutions à travers la Section 4.5 Renforcement des arêtes 105 théorie des ondelettes. Finalement, (Ziou, & Tabbone, 1991) d’une part, puis (Perl, & Marsland, 1992) utilisent seulement deux échelles spatiales pour la poursuite des arêtes à travers l’espace d’échelles. La recherche des arêtes à multiples résolutions spatiales présuppose qu’aucune nouvelle arête n’est générée à mesure que la résolution est baissée. Le choix du filtre gaussien pour la génération de la représentation multirésolution assure qu’il n’y aura pas de nouvelles arêtes. De plus, l’opérateur de détection des arêtes doit être un opérateur de différentiation linéaire, par exemple le passage par zéro du laplacien, qui est un opérateur de dérivée seconde nondirectionnelle, et le maximum de la dérivée première (Tihanyi, & Barron, 1990). Cette contrainte exclut explicitement le détecteur de Canny, qui est un opérateur directionnel et non-linéaire. L’opérateur utilisé pour les travaux de cette thèse est la somme de l’amplitude absolue des dérivées partielles selon l’horizontale et la verticale. L’opérateur de valeur absolue, qui n’est pas linéaire, ne sert qu’à estimer l’amplitude de la dérivée première de l’image. L’opération de détection des arêtes par approximation de l’amplitude du gradient remplit donc la condition de non-génération d’arêtes à mesure que la résolution diminue puisque ce sont les dérivées partielles de l’image filtrée qui sont calculées, des opérations de différentiation qui sont linéaires. Nous utilisons, pour le renforcement des arêtes, les quatre échelles spatiales utilisées pour la représentation multirésolution de chaque image d’éclairement gauche et droite. À un niveau de résolution spatiale donné, une arête est conservée (renforcement) si cette dernière est présente au niveau de la pyramide juste au dessus (et donc de résolution moindre). L’arête doit être écartée, particulièrement si elle se trouve au niveau de plus haute résolution, si elle n’est pas présente au niveau au dessus : dans ce cas, on n’est vraisemblablement pas en présence d’une arête causée par une primitive physique de la scène observée. Le renforcement d’arêtes selon leur présence aux niveaux de plus basse résolution est réalisé selon la règle d’apprentissage de renforcement, soit en modifiant les poids du circuit d’amincissement décrit à la section précédente selon que le neurone au niveau juste au dessus est activé ou non. Le processus de renforcement d’arêtes est illustré à la figure 4.10. Le renforcement d’arêtes est réalisé en modulant les poids du circuit d’amincissement par la valeur de sortie du neurone situé juste au dessus, au niveau suivant de moindre résolution de la pyramide. Si ce neurone est activé, indiquant que l’arête se retrouve à ce niveau de résolution, le réseau d’amincissement opère normalement et son comportement dynamique est tel que décrit à la section précédente. Les liens partant du neurone au niveau n+1 et qui modulent les poids du circuit de compétition ont un poids de 5. Si le neurone au niveau au dessus n’est pas ou est peu activé, indiquant l’absence 106 Détection des arêtes d’une image Chapitre 4 niveau n+1 niveau n Figure 4.10 Renforcement des arêtes. Le circuit d’amincissement d’arêtes opère normalement si le neurone au niveau de résolution juste au dessus est activé, indiquant la présence de l’arête à ce niveau de résolution moindre. Si l’arête détectée n’apparait pas au niveau au dessus, elle est considérée comme une arête de bruit et le poids de toutes les connexions du circuit de compétition tend vers zéro, entraînant que l’activité des 4 neurones du groupe tendra vers zéro, effaçant l’arête de bruit détectée. d’arêtes à cet endroit, les poids du circuit de compétition en dessous ont une valeur tendant vers zéro, ce qui entraîne que l’activité des 4 neurones du groupe décroît vers zéro, effaçant ainsi la présence d’une arête de bruit. 4.6 RÉSULTATS EXPÉRIMENTAUX Le réseau de détection d’arêtes fut d’abord testé sur une image passablement complexe qui est largement utilisée dans la littérature pour vérifier et comparer les résultats de divers algorithmes de traitement d’image. L’image Lenna est illustrée à la figure 4.11. La première étape de détection latérale des arêtes à chaque niveau de la pyramide est illustrée à la figure 4.12. Le croquis ainsi généré n’est le résultat que de la détection latérale des arêtes, c’est-à-dire que la sortie de chaque neurone est une approximation de l’amplitude du gradient à cet emplacement. Les dérivées partielles selon x et y nécessaires au calcul du gradient sont approximées par des champs récepteurs ayant la forme de masque de Section 4.6 Résultats expérimentaux 107 Figure 4.11 Image de Lenna. Image pour illustrer l’algorithme neuronique de détection d’arêtes. Sobel. Durant les étapes subséquentes de l’algorithme, les arêtes sont amincies grâce aux réseaux de compétition 2x2 et sont renforcées lorsque l’arête est présente au niveau juste au dessus, et encore plus si l’arête est présente à plus d’un niveau au dessus dans la pyramide. Le résultat de l’amincissement et du renforcement apparaît à la figure 4.13, où le croquis à pleine résolution aminci et ren- Figure 4.13 Amincissement et renforcement des arêtes. Le résultat de la détection latérale d’arêtes, à gauche, est comparé au résultat du renforcement et de l’amincissement après deux tops d’horloge. forcé après deux tops d’horloge est comparé au croquis pleine résolution résultant de la détection latérale seulement. Les arêtes correspondant aux attributs physiques de la scène originale ont été conservées tandis que celles correspondant à des détails non-significatifs ou produites par l’erreur de quantification dans la production de l’image ont été éliminées. 108 Détection des arêtes d’une image σ = 2 √3 Chapitre 4 σ = √3 σ = √3 / 2 σ = 0 (pleine résolution) Figure 4.12 Croquis multirésolution de l’image Lenna. Croquis de l’image Lenna aux 4 niveaux de résolution de la pyramide. Aucun amincissement ni renforcement ne sont appliqués. CONCLUSION La détection des arêtes constitue la première étape du système de vision et produit le croquis, la première forme de représentation interne de données du système. Nous nous sommes d’abord interrogé sur la nature des arêtes dans une image et leur relation avec des attributs physiques de la scène observée dont nous étudions une représentation par image d’éclairement produite par une caméra. Nous avons ensuite procédé à une analyse des méthodes classiques de détection d’arêtes. Puis, nous avons décrit la méthode de détection proposée dans ce document, soit une technique neuronique multirésolution qui utilise Section 4.6 Conclusion 109 l’information présente à plusieurs niveaux de résolution spatiale afin d’en arriver à la construction d’un croquis précis qui représente les primitives physiques de la scène sous observation. Le croquis est la première forme de représentation interne du système de vision. Cette représentation interne sert d’entrée à des algorithmes tel la stéréoscopie et l’analyse du mouvement. Ces algorithmes nécessitent une localisation précise des arêtes de chacune des images gauche et droite et produisent l’esquisse, une forme de représentation interne qui mesure la profondeur de la scène aux différents points caractéristiques de cette dernière. 110 Détection des arêtes d’une image Chapitre 4 RÉFÉRENCES Ballard, D. H. (1981). Generalizing the Hough transform to detect arbitrary shapes. Pattern Recognition, 13(2), 111-122. Barr, A., Cohen, P. R., & Feigenbaum, E. A. (Ed.). (1989). The Handbook of Artificial Intelligence . Reading, Mass.: Addison-Wesley. Basseville, M. (1979). Détection de contours: méthodes et études comparatives. Ann. Télécommunic., 34(11-12), 559-579. Bergholm, F. (1987). Edge Focusing. IEEE Transactions on Pattern Analysis and Machine Intelligence, PAMI-9(6), 726-741. Besançon, J. E. (1988). Vision par ordinateur en deux et trois dimensions . Paris: Eyrolles. Bhatia, P., Srinivasan, V., & Ong, S. H. (1991). Single-layer edge detector with competitive unsupervised learning. Proceedings of the International Joint Conference on Neural Networks, Singapore, 1, 634-639. Boyer, K. L., & Sarkar, S. (1992). Assessing the State of the Art in Edge Detection: 1992. Proceedings of the SPIE Applications of Artificial Intelligence X: Machine Vision and Robotics, Orlando, Florida, 22-24 april, 1708, 353-362. Brzakovic, D., Patton, R., & Wang, R. L. (1991). Rule-Based Multitemplate Edge Detector. Computer Vision, Graphics and Image Processing: Graphical Models and Image Processing, 53(3), 258-268. Canny, J. (1986). A Computational Approach to Edge Detection. IEEE Transactions on Pattern Analysis and Machine Intelligence, PAMI-8(6), 679-698. Carpenter, G. A., Grossberg, S., & Mehanian, C. (1989). Invariant Recognition of Cluttered Scenes by a Self-Organizing ART Architecture: CORT-X Boundary Segmentation. Neural Networks, 2, 169-181. Section 4.6 Références 111 Chen, J.-S. (1992). Generalized Adaptive Smoothing for multiscale edge detection. Proceedings of the SPIE Applications of Artificial Intelligence X: Machine Vision and Robotics, Orlando, Florida, 22-24 april, 1708, 341-352. Chen, M.-H., & Yan, P.-F. (1989). A Multiscaling Approach Based on Morphological Filtering. IEEE Transactions on Pattern Analysis and Machine Intelligence, 11(7), 694-700. Clark, J. J., & Lawrence, P. D. (1984). A Hierarchical Image Analysis System Based Upon Oriented Zero Crossings of Bandpassed Images. In A. Rosenfeld (Ed.), Multiresolution Image Processing and Analysis (pp. 148168). New York: Springer-Verlag. Cohen, P. R., & Feigenbaum, E. A. (Ed.). (1982). The Handbook of Artificial Intelligence . Reading, Mass.: Addison-Wesley. Daugman, J. G. (1987). Image Analysis and Compact Coding by Oriented 2D Gabor Primitives. Proceedings of the SPIE: Image Understanding and the Man-Machine Interface, 758, 19-30. Etemad, K., & Chellappa, R. (1993). A Neural Network Based Edge Detector. Proceedings of the IEEE Internatinal Conference on Neural Networks, San Francisco, CA, March 28 - April 1, 1, 132-137. Fleck, M. M. (1992). Multiple Widths Yield Reliable Finite Differences. IEEE Transactions on Pattern Analysis and Machine Intelligence, 14(4), 412-429. Freeman, W. T., & Adelson, E. H. (1990). Steerable Filters for Early Vision, Image Analysis, and Wavelet Decomposition. Proceedings of the 3rd ICCV90: Third International Conference on Computer Vision, Osaka, Japan, Dec. 4-7, 406-415. Gaussier, P., & Cocquerez, J.-P. (1992). Neural networks for complex scene recognition: simulation of a visual system with several cortical areas. Proceedings of the IJCNN '92 Baltimore - International Joint Conference on Neural Networks, Baltimore, Maryland, June 7-11, III, III-233 - III-259. Gonzalez, R. C., & Wintz, P. (1977). Digital Image Processing . London: Addison-Wesley. 112 Détection des arêtes d’une image Chapitre 4 Grimson, W. E. L. (1981). From Images to Surfaces - A Computational Study of the Human Early Visual System . Cambridge, Mass.: The MIT Press. Grossberg, S., & Mingolla, E. (1985). Neural dynamics of perceptual grouping: Textures, boundaries, and emergent segmentations. Perception and Psychophysics, 38(2), 141-171. Grossberg, S., & Todorovic, D. (1988). Neural dynamics of 1-D and 2-D brightness perception: A unified model of classical and recent phenomena. Perception and Psychophysics, 43, 241-277. Grossberg, S., & Wyse, L. (1991). Invariant Recognition of Cluttered Scenes by a Self-Organizing ART Architecture: Figure-Ground Separation. Proceedings of the IEEE INNS International Joint Conference on Neural Networks - Seattle, Seattle, Washington, July 8-12, 1, I-633 - I-638. Hildreth, E. C. (1983). The Detection of Intensity Changes by Computer and Biological Vision Systems. Computer Vision, Graphics, and Image Processing, 22, 1-27. Hubel, D. H., & Wiesel, T. N. (1959). Receptive fields of single neurones in the cat's striate cortex. Journal of Physiology, 148, 574-591. Jain, A. K. (1989). Fundamentals of Digital Image Processing . Englewood Cliffs, NJ: Prentice Hall. Jang, B.-K., & Chin, R. T. (1990). Analysis of Thinning Algorithms Using Mathematical Morphology. IEEE Transactions on Pattern Analysis and Machine Intelligence, 12(6), 541-551. Lam, L., Lee, S.-W., & Suen, C. Y. (1992). Thinning Methodologies - A Comprehensive Survey. IEEE Transactions on Pattern Analysis and Machine Intelligence, 14(9), 869-885. Lepage, R., & Crevier, D. (1994). Multiresolution neural network for the extraction of the primal sketch. Proceedings of the SPIE Intelligent Robots and Computer Vision XIII: Algorithms and Computer Vision, Boston, Massachusetts, 31 October - 2 November, 2353, 375-384. Section 4.6 Références 113 Lepage, R., Laurendeau, D., & Gagnon, R. (1992). Extraction of texture features with a multiresolution neural network. Proceedings of the SPIE: Applications of Artificial Neural Networks III, Orlando, Florida, 21-24 april, 1709, 64-75. Lepage, R., & Poussart, D. (1991). A Neural Network for Multiresolution Edge Detection. Proceedings of the Canadian Conference on Electrical and Computer Engineering, Québec (Québec) Canada, September 25-27, 1, 25.1.1 - 25.1.4. Lepage, R., & Poussart, D. (1992). Multiresolution Edge Detection. Proceedings of the IJCNN '92 Baltimore - International Joint Conference on Neural Networks, Baltimore, Maryland, June 7-11, IV, IV-438 - IV-443. Levine, M. D. (1985). Vision in man and machine . New York: McGraw-Hill. Lu, Y., & Jain, R. C. (1989). Behavior of Edges in Scale Space. IEEE Transactions on Pattern Analysis and Machine Intelligence, 11(4), 337-356. Lu, Y., & Jain, R. C. (1992). Reasoning about Edges in Scale Space. IEEE Transactions on Pattern Analysis and Machine Intelligence, 14(4), 450-468. Mallat, S., & Zhong, S. (1992). Characterization of Signals from Multiscale Edges. IEEE Transactions on Pattern Analysis and Machine Intelligence, 14(7), 710-732. Marr, D. (1982). Vision - A Computational Investigation into the Human Representation and Processing of Visual Information . San Francisco: Freeman. Marr, D., & Hildreth, E. (1980). Theory of edge detection. Proceedings of the Royal Society of London, Series B, 207, 187-217. McMichael, D. (1992). Fusing Multiple Images and Extracting Features for Visual Inspection (No. 762). Control Systems Centre, UMIST, Manchester, UK. Mkaouar, M., & Lepage, R. (1995). Extraction des caractéristiques d'une image par analyse à multiple résolutions spatiales. Proceedings of the Congrès canadien en génie électrique et informatique, Montréal, Québec, du 5 au 8 septembre, 1176-1179. 114 Détection des arêtes d’une image Chapitre 4 Mkaouar, M., & Lepage, R. (1996). Le Perceptron multi-couches pour la détection des arêtes d'une image. Proceedings of the Vision Interface '96, Toronto (Ontario) Canada, 21-24 mai, 41-48. Moran, C. J. (1990). A Morphological Transformation for Sharpening Edges of Features before Segmentation. Computer Vision, Graphics, and Image Processing, 49, 85-94. Moura, L., & Martins, F. C. M. (1991). Edge Detection Through Cooperation and Competition. Proceedings of the International Joint Conference on Neural Networks, Singapore, 3, 2588-2593. Narbel, P. (1990). The zero-crossings of the Laplacian of Gaussian and their limitations (No. 90.05). Geneva University. Perl, D., & Marsland, T. A. (1992). An adaptive neural network for image enhancement (ANNIE). Proceedings of the SPIE: Applications of Artificial Neural Networks III, Orlando, Florida, 21-24 april, 1709, 76-86. Princen, J., Illingworth, J., & Kittler, J. (1990). A Hierarchical Approach to Line Extraction Based on the Hough Transform. Computer Vision, Graphics, and Image Processing, 52, 57-77. Shu, J. S.-P. (1989). One-pixel edge detection. Pattern Recognition, 22(6), 665673. Tan, H. L., Gelfand, S. B., & Delp, E. J. (1992). A Cost Minimization Approach to Edge Detection Using Simulated Annealing. IEEE Transactions on Pattern Analysis and Machine Intelligence, 14(1), 3-18. Tihanyi, E. Z., & Barron, J. L. (1990). Spatio-Temporal Edge Focusing (No. 267). Department of Computer Science, the University of Western Ontario, London, Ontario. Torre, V., & Poggio, T. A. (1986). On Edge Detection. IEEE Transactions on Pattern Analysis and Machine Intelligence, PAMI-8(2), 147-163. Ulupinar, F., & Medioni, G. (1990). Refining Edges Detected by a LoG Operator. Computer Vision, Graphics, and Image Processing, 51, 275-298. Section 4.6 Références 115 Wilson, H. R., & Bergen, J. R. (1979). A four mechanism model for spatial vision. Vision Research, 19, 19-32. Wilson, R., & Bhalerao, A. H. (1992). Kernel Designs for Efficient Multiresolution Edge Detection and Orientation Estimation. IEEE Transactions on Pattern Analysis and Machine Intelligence, 14(3), 384-390. Ziou, D., & Tabbone, S. (1991). Fusion des contours dans un espace échelle. Proceedings of the Treizième Colloque sur le Traitement du Signal et des Images, Juan-les-Pins, 2, 1013 - 1016. Zucker, S. W., David, C., Dobbins, A., & Iverson, L. (1988). The Organization of Curve Detection: Coarse tangent fields and fine spline coverings. Proceedings of the Second International Conference on Computer Vision, Tampa, Florida, December 5-8, 568-577. 116 Détection des arêtes d’une image Chapitre 4