Notes

Transcription

Notes

CHAPITRE 4
Détection des arêtes
d’une image
Une image comporte beaucoup trop d’informations pour que l’on puisse
tenter une analyse de cette dernière au niveau de ses valeurs d’éclairement en
chaque pixel. Ainsi, une (petite) image de dimensions 256x256 comporte
65,536 pixels contenant chacun une valeur d’éclairement. Par contre, nous pouvons faire porter l’analyse sur les arêtes contenues dans l’image, ce qui limite
de beaucoup la complexité de l’analyse. Les arêtes sont définies comme les
variations brusques de l’éclairement et correspondent à des attributs physiques
de la scène tridimensionnelle observée. La détection des arêtes nous permet de
construire le croquis, le premier niveau de représentation interne du modèle
computationnel du système de vision. Un algorithme de stéréoscopie pourrait
être appliqué par la suite et consiste à identifier une même primitive sur les deux
images d’éclairement gauche et droite et à mesurer la différence de position des
deux primitives, ce qui sera inversement proportionnel à la profondeur de ce
point caractéristique.
La section 4.1 établit la relation entre les différents attributs physiques de la
scène et les primitives détectées sur les images d’éclairement. La détection des
primitives sur l’image est détaillée à la section 4.2 tandis que la section 4.3 précise une méthode de détection multirésolution réalisée à l’aide de réseaux neuroniques. L’algorithme de stéréoscopie nécessite une localisation précise des
primitives appariées. Une méthode pour amincir les arêtes détectées est présentée à la section 4.4. Finalement, une analyse multirésolution permet d’atténuer
la présence des arêtes bruitées et fait l’objet de la section 4.5.
82
Détection des arêtes d’une image
Chapitre 4
4.1 ATTRIBUTS DE LA SCÈNE OBSERVÉE
La scène tridimensionnelle sous observation comporte plusieurs attributs
que nous désirons détecter afin de construire le croquis, le premier niveau de
représentation interne du modèle computationnel d’un système de vision. Ces
primitives qui apparaissent sur les images d’éclairement d’entrée sont engendrées par des phénomènes physiques qui se produisent dans la scène observée
comme le montre la figure 4.1. Ces attributs physiques sont projetés sur les deux
2
2
4
1
3
3
3
1. Occultations: masquage d’un objet 3. Marques :
texture, albédo, etc.
par un autre
2. Arêtes 3D: discontinuité du vecteur 4. Ombre: discontinuité de
l’éclairage incident
normal n
Figure 4.1
Principaux attributs d’une scène tridimensionnelle.
Phénomènes physiques pouvant intervenir dans une scène
tridimensionnelle. Ces différents phénomènes sont projetés sur
l’image d’éclairement sous forme de variations brusques
d’éclairement.
plans-images et apparaissent comme des arêtes, ou variations brusques de
Section 4.1
Attributs de la scène observée
83
l’éclairement. Les attributs physiques de la scène qui sont traduits par des arêtes
sur les images d’éclairement sont:
1. Le contour d’un objet qui masque partiellement
un autre objet de la scène observée. Ce contour
d’occultation empêche de détecter les attributs de
l’objet masqué qui est derrière.
2. Les arêtes 3D, qui correspondent à une
discontinuité du vecteur normal à la surface
externe de l’objet.
3. Les différentes marques qui apparaissent sur des
surfaces visibles de la scène. Ces marques
peuvent provenir de la texture de la surface ou
d’un changement d’albédo causé, par exemple,
par un trait de crayon.
4. Le contour de l’ombre projetée sur des objets de
la scène et provoquée par une discontinuité de
l’éclairage incident.
Les arêtes de l’image sont donc associées à des attributs identifiables de la
scène tridimensionnelle sous observation. La détection et la localisation précise
de ces attributs est une étape cruciale puisqu’elle permet d’alimenter l’algorithme de stéréo, entre autre. Cet algorithme, rappelons le, consiste à identifier
les mêmes primitives sur les deux images d’éclairement et à mesurer leur position relative. Cette différence de position, appelée disparité, restitue la profondeur de cet attribut dans la scène.
Une description plus complète des attributs d’une scène implique une analyse de ces attributs à plus d’une résolution spatiale. L’analyse à plus d’une résolution spatiale permet de mieux identifier les primitives composant la scène et
d’éliminer les fausses arêtes qui ne correspondent pas à des attributs physiques
de la scène mais sont plutôt causées par des artefacts tels les bruits de numérisation et de quantification. Une stratégie d’extraction des primitives d’une
image pourrait donc consister à identifier les arêtes à chacun des niveaux de
résolution spatiale de la représentation multirésolution des images d’éclairement, d’amincir les arêtes détectées à chaque niveau afin de mieux les localiser,
puis d’utiliser l’information détectée aux autres niveaux de résolution afin de
renforcer les arêtes correspondant à des attributs physiques de la scène et éliminer le plus possible les arêtes bruitées.
84
Chapitre 4
4.2 DÉTECTION DES VARIATIONS BRUSQUES
D’ÉCLAIREMENT
Un attribut physique de la scène tridimensionnelle sous observation est projetée sur le plan image par le processus de formation des images comme une
variation brusque d’éclairement, ou arête. La figure 4.2 illustre une primitive de
I
∇I
∇2I
Figure 4.2
Imagerie d’une variation de normale à la surface.
Attribut de scène (variation de la normale à la surface) et sa
traduction sur l’image d’éclairement I. La variation
d’éclairement peut être détectée soit comme un maximum de
la dérivée première de l’image ou soit comme un passage par
zéro de la dérivée seconde.
scène et sa traduction sur le plan image. La variation résultante d’éclairement
peut essentiellement être détectée de deux façons :
1. La variation peut être détectée par un maximum
de la dérivée première directionnelle de l’image
d’éclairement. Cette méthode possède l’avantage
d’être relativement peu bruitée (il est reconnu que
l’opération de dérivation est bruitée parce qu’elle
amplifie les variations brusques) et se prête bien
à une réalisation neuronique puisque l’activité
d’un neurone représentant une arête sera
justement maximale lorsqu’une arête sera
détectée à cette position. On n’a donc pas besoin
d’une couche supplémentaire dont les neurones
Section 4.2
Détection des variations brusques d’éclairement
85
sont activés en présence d’arête. Par contre, une
arête détectée comme un maximum de la dérivée
première aura tendance à être large, surtout si les
variations d’éclairement sont relativement
douces. Il faudra donc prévoir un mécanisme
d’amincissement afin de pouvoir localiser
précisément les arêtes.
2. La variation peut être détectée par un passage par
zéro de la dérivée seconde de l’image
d’éclairement. Cette méthode possède l’avantage
de permettre une localisation précise de l’arête
puisque c’est exactement le passage par zéro qui
détermine la localisation de l’arête. Par
interpolation, il est même possible de localiser
l’arête entre les pixels. De plus, il existe un
opérateur simple, le Laplacien, qui permet de
rendre la détection isotrope, c’est-à-dire qu’une
connaissance a priori de l’orientation de l’arête
n’est pas requise. Par contre, l’opération de
dérivée seconde génère beaucoup plus de bruit
que l’opération de dérivée première. Il s’ensuit
qu’un plus grand nombre d’arêtes bruitées sont
détectées; ces arêtes ne correspondent pas à des
attributs physiques de la scène observée et il
faudra donc trouver un moyen de les éliminer, ou
tout au moins d’en atténuer la quantité.
Le choix d’une méthode axée sur la détection d’un maximum de la dérivée
première ou sur un passage par zéro de la dérivée seconde dépend principalement de la précision recherchée, du type d’information recherchée et du support
choisi pour la réalisation matérielle. La recherche scientifique dans le domaine
de la détection d’arêtes a été et est encore passablement active tant du côté de la
détection par la dérivée première que dans celle par la dérivée seconde. La plupart de ces méthodes décrites dans la littérature filtrent d’abord l’image à analyser afin d’atténuer le bruit inhérent au processus de différentiation. Cette
filtration correspond à analyser l’image à un niveau de résolution spatiale
donné.
La littérature sur la détection d’arêtes est vaste. Nous nous limitons aux
méthodes différentielles et mettons volontairement de côté d’autres paradigmes
86
Chapitre 4
de détection d’arêtes telles les méthodes morphologiques (Chen, & Yan, 1989;
Jang, & Chin, 1990; Moran, 1990), les méthodes utilisant la transformée de
Hough (Ballard, 1981; Princen, Illingworth, & Kittler, 1990), les méthodes
basées sur la minimisation d’un facteur coût (Tan, Gelfand, & Delp, 1992) ou
les méthodes utilisant une approximation par splines (Zucker, David, Dobbins,
& Iverson, 1988).
Plusieurs bons articles ont été rédigés pour synthétiser les travaux sur la
détection des arêtes. Le lecteur intéressé peut consulter (Basseville, 1979),
l’article récent de (Boyer, & Sarkar, 1992) et l’article synthèse de (Torre, & Poggio, 1986). La plupart des livres qui traitent de vision informatique abordent la
détection d’arêtes comme étant une étape cruciale du processus de vision. Les
livres suivants nous ont inspiré dans nos travaux sur la détection d’arêtes : les
deux manuels de référence classiques en intelligence artificielle (Barr, Cohen,
& Feigenbaum, 1989; Cohen, & Feigenbaum, 1982), le livre en français de
(Besançon, 1988), celui, classique, de (Gonzalez, & Wintz, 1977), un autre classique sur la vision informatique et biologique, le texte de (Levine, 1985) et
enfin, un texte récent de (Jain, 1989).
Comme nous l’avons mentionné plus haut, la détection d’arêtes peut être
réalisée soit en détectant un maximum de la dérivée première ou un passage par
zéro de la dérivée seconde. De plus, la détection peut être directionnelle ou isotrope. Une détection directionnelle indique la présence d’une arête dans une
direction spécifiée tandis qu’une détection isotrope indique la présence d’une
arête indépendamment de sa direction. Les sous-sections suivantes précisent
l’état de l’art dans chacun de ces domaines de détection d’arêtes.
4.2.1 Maximum de la dérivée première directionnelle
La détection d’arêtes par une mesure du maximum de la dérivée première
de l’image calculée dans une direction spécifiée est une méthode de détection
qui a fait l’objet de nombreuses recherches. Cette méthode offre l’avantage
d’être peu bruyante à cause de l’utilisation de la dérivée première et offre la possibilité d’obtenir des arêtes minces en choisissant soigneusement la direction
selon laquelle la dérivée est calculée. Il existe deux écoles dominantes : ceux qui
calculent la dérivée en chaque point dans une direction précise et ceux qui calculent la dérivée en chaque point selon plusieurs directions déterminées à
l’avance et qui choisissent la direction dominante comme étant la direction de
l’arête.
Section 4.2
87
Les méthodes basées sur le calcul de la dérivée en chaque point selon une
direction spécifiée sont issues principalement des travaux de (Canny, 1986). Ce
dernier a trouvé que l’opérateur optimal pour trouver une arête bruitée est la
dérivée première directionnelle (selon la direction du gradient) d’une fonction
gaussienne Gσ de résolution σ. Une arête est alors définie comme le maximum
local (dans la direction du gradient) de l’opérateur Gn convolué avec l’image I.
L’opérateur Gn est défini :
Gn =
∂
G
∂n σ
(4.1)
où n est la direction du gradient. L’image est donc convoluée avec l’opérateur
Gn, ou de façon équivalente, puisque les opérations de dérivation et de
convolution sont linéaires :
I*G n = I*
∂
∂
Gσ =
( I*G σ )
∂n
∂n
(4.2)
L’image peut d’abord être filtrée par le filtre passe-bas gaussien, puis la dérivée
directionnelle est calculée en chaque pixel de l’image. C’est cette dernière
approche qui est habituellement préconisée lors de la réalisation d’un détecteur
de Canny, tel par exemple dans le système de traitement et d’analyse d’images
Aphelion™. Les étapes pour la réalisation d’un détecteur de Canny sont alors :
1. I*G σ Convolution de l’image avec un filtre
passe-bas gaussien.
2. ∇( I*G σ ) = D x, D y Calcul du gradient selon
l’axe horizontal et vertical.
3.
∇( I*G σ ) =
du gradient.
D x2 + D y2 Calcul de l’amplitude
4. Un pixel est activé (indique la présence d’une
arête) si son amplitude de gradient est maximum
dans la direction du gradient. La valeur de
l’amplitude du pixel doit donc être la plus grande
par rapport aux deux valeurs d’amplitude
(obtenues par interpolation linéaire) de part et
d’autre du pixel dans la direction du gradient.
88
Chapitre 4
Cette opération de sélection a pour effet
d’amincir considérablement la largeur détectée
des arêtes.
5. Sélection des arêtes significatives. Une opération
de seuillage avec hystérésis est appliquée sur
l’image d’arêtes obtenue à l’étape précédente.
Les pixels de l’image d’arêtes qui ont été activés
à l’étape précédente :
- sont conservés si leur valeur d’amplitude de
gradient est supérieure à la valeur supérieure
de seuil
- ne sont pas conservés (mis à zéro) si
l’amplitude est inférieure à la valeur
inférieure de seuil
- sont conservés si la valeur d’amplitude est
comprise entre les deux valeurs de seuil et
qu’un des pixels d’arêtes voisins a été
conservé parce que sa valeur d’amplitude
dépassait la valeur supérieure du seuil. C’est
un processus itératif qui évolue de telle sorte
que les pixels dont l’amplitude de gradient est
située entre les deux valeurs de seuil sont
convertis en pixels d’arête s‘il existe un
parcours pouvant les relier à un pixel d’arête
dont l’amplitude est supérieure au seuil
supérieur.
(Shu, 1989) utilise une technique semblable à celle de Canny, mais rétrécit
les arêtes tant selon l’axe horizontal que selon l’axe vertical, au lieu de rétrécir
l’arête selon l’axe dans la direction du gradient. Cette modification permet une
simplification de la réalisation de l’algorithme par réseaux neuroniques puisque
l’amincissement peut alors être réalisé par deux circuits de compétition pré-connectés, un selon l’axe horizontal et l’autre selon l’axe vertical.
Le détecteur de Canny est potentiellement fort intéressant parce qu’il effectue automatiquement, avant même d’appliquer le seuil avec hystérésis, un amincissement très efficace des arêtes. Par contre, le choix du seuil supérieur pour
enlever les arêtes de bruit est non-trivial et dépend beaucoup de l’image à ana-
Section 4.2
89
lyser. Dans la méthode proposée par Canny, une arête de bruit sera définie en
relation avec le choix d’une valeur maximum et minimum pour le seuil. Nous
proposons au contraire, dans notre démarche, qu’une arête de bruit soit plutôt
définie par rapport à une représentation multirésolution de l’image à analyser.
De cette façon, une arête de bruit est identifiée par rapport au contenu de
l’image, et non en fonction de la valeur arbitraire d’un seuil.
La seconde école dominante, inspirée par l’équipe de Grossberg (Carpenter,
Grossberg, & Mehanian, 1989; Gaussier, & Cocquerez, 1992; Grossberg, &
Mingolla, 1985; Grossberg, & Todorovic, 1988; Grossberg, & Wyse, 1991),
prône de débuter l’analyse par une détection des arêtes selon plusieurs directions pré-définies puis de choisir l’arête en chaque pixel selon l’orientation
dominante détectée et selon l’orientation des arêtes dans le voisinage. Ces travaux s’inspirent largement de ce qui est connu du fonctionnement du cortex
visuel chez les mammifères (Hubel, & Wiesel, 1959) et se prêtent donc particulièrement bien à une réalisation par réseaux neuroniques.
La figure 4.3 illustre le fonctionnement de ce système de détection d’arêtes.
Les principales étapes de la détection, qui correspondent aux différentes couches de cellules, sont :
1. Cellules simples : Cette couche constitue le
premier étage du système de détection de
contour. Les cellules simples détectent une arête
dans une direction et un sens donnés et à une
résolution spatiale spécifique qui dépend de
l’étendue du champ récepteur. Les arêtes sont
détectées selon 4 orientations : horizontale, 45o,
verticale (tel qu’illustré sur la figure), et 135o.
(Carpenter, et al., 1989) utilisent deux grosseur
de champ récepteur, et donc deux échelles
spatiales d’analyse. La spécification du champ
récepteur détermine l’opération effectuée par la
cellule. Une opération simple de différentiation
entre le côté droit et gauche de la cellule est
calculée dans le type de détecteur proposé par
Carpenter et al, mais d’autres champs récepteurs
sont possibles, telle l’utilisation d’une cellule de
Gabor (Daugman, 1987) qui modélise assez bien
les cellules simples biologiques ou l’utilisation
90
Chapitre 4
Max.
+
Figure 4.3
-
-
+
Système BCS de Grossberg.
Version simplifiée du système BCS (“Boundary Contour
System”) développé par Grossberg et son équipe. La première
rangée est constituée de cellules simples qui détectent les
arêtes dans une direction et une orientation données. La
seconde couche est constituée de cellules complexes qui ne
sont sensibles qu’à l’orientation de l’arête. Les troisième et
quatrième couches constituent les deux couches de cellules
hypercomplexes. Les deux couches sont des étages de
compétition/coopération qui diminuent le bruit près des arêtes
et indiquent la présence d’une arête indépendamment de sa
direction ou de son orientation.
d’une
cellule
de
Grossberg-Todorovic
(Grossberg, et al., 1988) qui est construite à partir
d’une combinaison pondérée de filtres orientés
simulant des Différences de Gaussiennes (plus de
Section 4.2
détails à la sous-section 4.2.3). La fonction
d’activation de la cellule simple en est une de
rectification qui ne peut produire qu’une valeur
de sortie positive ou nulle.
2. Cellules complexes : Le second étage du
détecteur est composé de cellules complexes qui
produisent une détection insensible à la direction
du contraste. Pour ce faire, chaque cellule
complexe est connectée aux deux cellules
simples de même orientation et de même
résolution spatiale mais de direction de contraste
opposée. Les sorties de chacune des deux cellules
simples sont alors additionnées et la cellule
complexe est activée lorsqu’une des deux
cellules simples l’est. À chaque pixel de l’image,
on a une cellule complexe pour chacune des 4
orientations et pour chacune des 2 échelles
spatiales, soit la moitié du nombre de cellules
simples.
3. Cellules hyper-complexes : Les cellules hypercomplexes forment les deux derniers étages du
détecteur. Ce sont deux étages de compétition qui
servent à supprimer le bruit près des arêtes alors
que le bruit loin des arêtes est atténué grâce à
l’effet moyenneur des cellules simples et
complexes.
Le premier étage de compétition contribue
spécifiquement à la diminution du bruit près des
arêtes. Cet étage est un réseau de type “centre
excitateur - voisinage inhibiteur”. Les cellules
hyper-complexes au voisinage d’une cellule
complexe sont connectées par des liens de poids
positif (liens d’excitation) si les cellules sont
dans l’axe d’orientation de la cellule complexe et
en plus, sont elles-même orientées dans la même
direction que la cellule complexe. Toutes les
autres cellules hyper-complexes dans le
voisinage de la cellule complexe sont connectées
à cette dernière par des liens de poids négatifs
91
92
Chapitre 4
(liens d’inhibition). Les dimensions du voisinage
sont choisies en fonction des échelles spatiales
utilisées. Cet étage de compétition renforce les
arêtes connectées, et donc les contours, et inhibe
les arêtes isolées qui sont habituellement des
arêtes bruitées.
Le second étage de compétition est simplement
un réseau de type “le gagnant emporte tout” qui
sélectionne l’activité maximale à chaque position
de pixel. Les cellules hyper-complexes du dernier
étage du détecteur indiquent donc pour chaque
position de pixel la présence d’une arête, quelque
soit son orientation ou sa direction.
4. Interactions entre les deux échelles spatiales :
Les cellules hyper-complexes possèdent des
champs récepteurs dont les dimensions
dépendent de l’échelle spatiale. Les cellules
hyper-complexes à échelles fines suppriment le
bruit près des arêtes et indiquent précisément la
localisation des arêtes. Les cellules hypercomplexes à échelle grossière suppriment bien le
bruit loin des arêtes mais n’indiquent pas
précisément la localisation des arêtes. Une
combinaison de ces deux cellules permet
d’éliminer encore plus le bruit près et loin des
arêtes.
5. Complétion du contour : Une dernière couche
de cellules, appelées cellules bipolaires et non
illustrée à la figure 4.3, permet de compléter le
contour. Ces cellules sont activées s’il y a assez
d’activation orientée de chaque côté (ou pôle) du
centre du champ récepteur.
Le modèle de Grossberg est intéressant parce qu’assez près du modèle biologique tel que nous le connaissons. Par contre, l’opération du réseau complet
dépend énormément de facteurs qu’il faut fixer assez intuitivement et le réseau
lui-même nécessite une quantité très considérable de neurones et de connexions,
ce qui provoque de nombreux problèmes lors des simulations sur ordinateurs
classiques.
Section 4.2
93
De nombreuses applications ne nécessitent pas une détection d’arêtes orientées aussi précise et compliquée que celle préconisée par l’équipe de Grossberg.
Dans ces cas, un simple masque orienté (par exemple, Sobel ou une dérivée de
gaussienne (Wilson, & Bhalerao, 1992)) est convolué avec l’image afin de
découvrir les arêtes sur l’image à une orientation donnée. La description des
arêtes orientées contenues dans l’image à analyser peut alors être utilisée, par
exemple, pour caractériser et classifier une image texturée (Lepage, Laurendeau, & Gagnon, 1992) ou pour servir d’entrée à un processus d’analyse de
l’image de plus grande complexité tel un analyseur de Fourier (Freeman, &
Adelson, 1990). Une autre application (Brzakovic, Patton, & Wang, 1991) utilise des masques orientés pour trouver des arêtes candidates tandis que les arêtes
résultantes sont choisies selon des règles heuristiques.
4.2.2 Maximum de la dérivée première isotrope
La détection d’arêtes par une mesure du maximum de la dérivée première
isotrope consiste à détecter la présence d’une arête par une seule mesure indépendante de la direction de l’arête. L’amplitude du gradient local est généralement utilisée comme paramètre mesuré. Cette méthode permet une réalisation
simple du circuit de détection mais n’offre pas la robustesse de la méthode du
maximum de la dérivée première directionnelle lorsqu’utilisée seule.
La méthode de mesure du gradient utilisée seule n’offre pas une localisation
précise de l’arête et est plus susceptible de détecter de fausses arêtes parce que
c’est une méthode de détection ponctuelle qui ne tient pas compte des arêtes
détectées dans le voisinage. Le détecteur d’arêtes proposé dans ce document
(Lepage, & Poussart, 1991; Lepage, & Poussart, 1992) utilise cette méthode de
détection surtout à cause de la simplicité du réseau neuronique résultant.
L’amincissement des arêtes de même que la diminution du nombre de fausses
arêtes sont obtenus grâce à une représentation multirésolution des images
d’éclairement gauche et droite et à une interaction entre les arêtes détectées aux
différentes échelles spatiales, comme il sera précisé à la section suivante.
D’autres auteurs proposent des méthodes qui vont dans le même sens : (Chen,
1992) propose un opérateur morphologique qui préserve les arêtes lors d’un
changement de l’échelle spatiale d’analyse; (Fleck, 1992) mesure la dérivée par
une différence finie et améliore la détection en combinant des mesures de différence finie de différentes largeurs; et (McMichael, 1992) pour sa part, mesure le
gradient de plusieurs images d’une scène éclairée de différentes façons et combine ces mesures, ce qui atténue l’effet de l’ombrage et renforce la détection des
arêtes de l’image causées par des primitives de la scène.
94
Chapitre 4
4.2.3 Passage par zéro de la dérivée seconde directionnelle
La détection d’arêtes par une mesure du passage par zéro de la dérivée
seconde de l’image calculée dans une direction spécifiée est une méthode de
détection qui a fait l’objet de relativement peu de recherche. Ce manque d’intérêt provient en grande partie de la popularité et de l’efficacité des méthodes de
détection du passage par zéro de la dérivée seconde non-directionnelle que nous
étudions à la sous-section suivante. Les méthodes non-directionnelles résultent
en un réseau neuronique de détection plus simple et linéaire, ce qui n’est pas le
cas pour une mesure de la dérivée seconde directionnelle. De plus, l’utilisation
de la dérivée seconde génère intrinsèquement plus de bruit que pour l’utilisation
de la dérivée première. Quelques auteurs ont néanmoins exploré cette avenue,
parmi lesquels nous pouvons mentionner (Clark, & Lawrence, 1984)
4.2.4 Passage par zéro de la dérivée seconde isotrope
La détection d’arêtes par une mesure du passage par zéro de la dérivée
seconde de l’image calculée indépendamment de la direction est une méthode
de détection qui fait l’objet d’une recherche diversifiée et qui suscite encore
aujourd’hui énormément d’intérêt (Narbel, 1990; Ulupinar, & Medioni, 1990).
Cet engouement pour cette méthode provient du fait qu’il existe un opérateur
linéaire simple du second ordre qui détecte une variation brusque de l’éclairement indépendamment de la direction de la variation d’éclairement. Cet opérateur se nomme le Laplacien et opère sur un voisinage restreint du pixel d’intérêt.
L’intérêt pour cette méthode provient aussi du fait que l’opérateur de Laplacien
peut facilement être combiné avec un filtre passe-bas gaussien et ainsi rendre la
détection d’arêtes sensible à l’échelle spatiale. Un dernier avantage apprécié de
cette méthode est qu’elle permet, en principe, une localisation intra-pixel précise de l’arête puisque c’est un passage par zéro de l’image convoluée qui indique la présence d’une arête et que ce passage peut être interpolé à partir des
valeurs positive et négative mesurées.
La méthode de détection du passage par zéro de la dérivée seconde isotrope
est issue principalement des travaux de Marr et Hildreth (Hildreth, 1983; Marr,
& Hildreth, 1980). Le détecteur de Marr-Hildreth, comme il est habituellement
appelé, s’inspire des connaissances physiologiques du système visuel des
mammifères : on croit que les contrastes de l’image rétinienne à certaines échelles spatiales sont d’abord accentués par un opérateur neuronique semblable à
celui proposé par Marr et Hildreth et que les passages par zéro de l’image résul-
Section 4.2
95
tante de même que leur orientation sont ensuite détectés pour former le croquis.
Voyons plus en détail l’opérateur de Marr-Hildreth.
Les changements d’éclairement dans une image d’éclairement interviennent
à différentes échelles spatiales. Leur détection optimale nécessite donc l’utilisation d’opérateurs de différentes largeurs. Le filtre passe-bas gaussien est un opérateur qui permet d’analyser, de « voir » l’image à différentes résolutions
spatiales. C’est ainsi qu’un filtre gaussien à bande passante étroite brouille
l’image de telle sorte que seuls les changements grossiers (à grande échelle) ressortent de l’image filtrée. Le filtre gaussien s’écrit :
( x2 + y2 )
1 – -------------------2
G ( x, y ) = ------------- e 2σ
2πσ 2
(4.3)
Le paramètre σ indique le niveau de résolution auquel l’image est observée.
L’image à la résolution σ est donc :
I σ ( x, y ) = G σ ( x, y )*I ( x, y )
(4.4)
Les arêtes sont ensuite trouvées sur l’image filtrée à l’aide du Laplacien, qui est
un opérateur différentiel isotrope de second ordre, le plus petit ordre qui assure
que l’opérateur soit linéaire. Le Laplacien s’écrit :
∇2 =
0 1 0
2
2
∂
∂
≅ 1 –4 1
+
∂x2 ∂y2
0 1 0
(4.5)
L’isotropie assure qu’une arête, c’est-à-dire une variation brusque d’éclairement, soit détectée quelle que soit son orientation dans l’image. L’image résultante est alors la convolution du Laplacien et de l’image filtrée :
I sortie ( x, y ) = ∇2( G σ ( x, y )*I ( x, y ) )
(4.6)
Puisque les deux filtres, le Laplacien ∇2 et le filtre gaussien Gσ, sont linéaires
et invariants, ils peuvent être combinés en un seul opérateur, le Laplacien de
96
Chapitre 4
gaussienne appelé aussi chapeau mexicain à cause de la forme de l’opérateur :
–r 2
∇ 2G
–1 
r 2  -------2σ 2
σ ( r ) = ------------4-  2 – -----2- e
2πσ
σ
(4.7)
avec r = x 2 + y 2 la distance radiale. La figure 4.4 illustre la forme (inversée)
de l’opérateur de Laplacien de gaussienne. La largeur w de la portion négative
de l’opérateur est donnée par :
w = 2 2σ
(4.8)
La largeur du lobe central de l’opérateur est donc proportionnelle à l’échelle
spatiale d’observation σ. (Grimson, 1981)propose 4 canaux différents séparés
chacun du précédent d’une octave pour l’analyse des arêtes de deux images
stéréo d’entrée. Les canaux utilisés ont des largeurs du lobe central w de 4, 9,
17 et 35 pixels, ce qui correspondrait aux canaux d’analyse du système visuel
humain (Wilson, & Bergen, 1979).
w
Figure 4.4
Laplacien de gaussienne.
Opérateur « chapeau mexicain » qui détecte les variations
d’éclairement en toute direction. L’opérateur de Marr-Hildreth
est illustré ici pour un facteur d’échelle spatiale σ =
2.
Section 4.2
97
Selon Marr et Hildreth, le Laplacien de gaussienne est la limite d’une différence de gaussiennes DdG :
1
∇ 2 G σ ( r ) ≅ DdG ( σ e, σ i ) = ----------------- e
2πσ e
–r 2
--------22σ e
1
– ---------------- e
2πσ i
–r 2
--------22σ i
(4.9)
où σ e = σ représente la variance d’excitation (filtre gaussien positif) tandis
que σ i représente la variance d’inhibition (filtre gaussien négatif). L’équation
4.9 approxime un Laplacien de gaussienne par une différence de deux
distributions gaussiennes lorsque :
σ
-----i = 1, 6
σe
(4.10)
Les cellules ganglionnaires, qui constituent le premier étage de traitement du
système visuel chez les mammifères, ont un champ récepteur qui ressemble
beaucoup à une différence de gaussiennes : le champ récepteur excitateur est
une gaussienne de variance σe alors que le champ récepteur inhibiteur est une
gaussienne plus large dans une proportion qui laisse croire que la fonction de
ces cellules est effectivement d’appliquer l’équivalent d’un Laplacien de
gaussienne sur l’image rétinienne afin d’accentuer les contrastes contenus dans
l’image.
La détection des arêtes d’une image est illustrée à la figure 4.5 où une cellule
de type on-center (cellule P) est utilisée en conjonction avec une cellule de type
off-center (cellule Q). Ce principe de détection peut facilement être étendu à la
détection d’arêtes orientées de longueurs variables, comme il est illustré à la
figure 4.6.
4.2.5 Détection des arêtes par apprentissage supervisé
Les arêtes correspondent à des variations brusques d’éclairement. De telles
variations sont détectées avec un opérateur de différentiation du premier ou du
second ordre, opérateur qui sera le plus souvent combiné avec un filtre passebas afin de diminuer les artefacts générés par l’opération de différentiation. La
traduction neuronique de ces opérateurs résulte en des connexions qui relient la
couche image à la couche du croquis avec des poids fixes. Des recherches récentes explorent différentes formes d’apprentissage afin de trouver d’autres valeurs
98
Chapitre 4
P
Q
Figure 4.5
Différence de gaussiennes.
Détection d’arêtes par deux opérateurs de différence de
gaussiennes. Chaque cellule de détection comprend un champ
récepteur d’excitation (cercle central) et un champ récepteur
d’inhibition (cercle extérieur). P et Q sont deux cellules
complémentaires qui produisent une sortie inversée l’une par
rapport à l’autre. La sortie de la cellule ET est activée lorsque
les deux cellules P et Q sont activées et donc qu’une arête est
située entre les deux cellules.
de poids des connexions qui parviennent à la couche du croquis. Moura et
Martins (Moura, & Martins, 1991) utilisent un réseau à 3 étages. Les deux premiers étages sont interreliés par des liens à poids fixes qui réalisent un filtre
passe-bas gaussien pour le premier étage et un masque de Sobel pour le second
afin de détecter l’amplitude et la direction du gradient. Le dernier étage en est
un de satisfaction de contraintes pour éliminer le bruit et construit des liens excitateurs entre des neurones voisins orientés perpendiculairement au gradient et
des liens inhibiteurs entre des neurones voisins orientés parallèlement au gradient. Bhathia ετ αλ (Bhatia, Srinivasan, & Ong, 1991) proposent, à la même
époque, un réseau à un seul étage, l’étage du croquis, relié à la couche de
l’image d’éclairement. Chaque emplacement du croquis est occupé par quatre
neurones, qui indiquent l’éclairement moyenne de même que la force et la direction de l’éventuelle arête détectée. Chaque groupe de 4 neurones du croquis sont
interreliés par des liens inhibiteurs pour augmenter la compétition et chaque
groupe est relié à un champ récepteur de 16x16 pixels en dessous, sur l’image
d’éclairement. Deux séries de connexions composent le champ récepteur, une
première à poids fixes réalise un filtre gaussien et l’autre série doit être entraînée
de façon non-supervisée à l’aide d’une règle hebbienne modifiée. L’image uti-
Section 4.2
Figure 4.6
99
Différence de gaussiennes orientée.
Détection d’arêtes orientées par des opérateurs alignés et
complémentaires de différence de gaussienne. La sortie de la
cellule ET est activée lorsque toutes les cellules connectées à la
porte sont activées. La configuration des opérateurs détermine la
plage d’orientations qui est détectée (lignes pointillées sur la
figure).
lisée pour la phase d’entraînement est constituée de cercles concentriques pour
avoir un bon échantillonnage d’arêtes de force et d’orientations variées.
Par la suite, Etemad et Chellappa (Etemad, & Chellappa, 1993) proposent
un réseau neuronique approximateur de fonctions et entraîné par rétro-propagation du gradient d’erreur pour résoudre le problème de détection d’arêtes. Le
réseau proposé comporte une couche d’entrée de 3x3 qui balaie l’image d’éclairement, d’une couche cachée et d’une couche de sortie également de 3x3 qui
représente l’arête détectée débarrassée du bruit. Un ingénieux système de vote
entre les couches de sortie voisines permet de diminuer le bruit et les artefacts.
Mkaouar et Lepage (Mkaouar, & Lepage, 1996) proposent le même type de
réseau à rétro-propagation du gradient d’erreur, mais cette fois en utilisant une
couche d’entrée de 5x5, 2 couches cachées, et un seul neurone à la sortie pour
indiquer la présence ou l’absence d’une arête au centre de la couche d’entrée.
Les résultats sont encourageants et des travaux se poursuivent pour interpréter
les configurations de poids obtenues et améliorer les performances en diminuant
le temps nécessaire pour l’apprentissage.
100
Chapitre 4
4.2.6 Détection multirésolution des arêtes par réseau
neuronique
Les réalisations neuroniques de détecteurs d’arêtes multirésolution ne font
pas l’objet de recherche répandue probablement à cause de la complexité des
modes de représentation de l’information visuelle multirésolution. (Lepage, &
Crevier, 1994) proposent une extraction multirésolution des arêtes basée sur une
représentation pyramidale et utilisant une neurone de vigilance à chaque niveau
de la pyramide pour contrôler le renforcement des arêtes dans une direction
basse → haute résolution. (Mkaouar, & Lepage, 1995) proposent une extraction
multirésolution des arêtes en utilisant une pyramide pour accélérer les simulations et un filtre gaussien récursif pour la génération des niveaux de représentation multirésolution. Ce modèle leur sert de base pour générer la base
d’apprentissage dans (Mkaouar, et al., 1996).
4.3 DÉTECTION NEURONIQUE DE L’AMPLITUDE DU
GRADIENT
Nous illustrons en détail dans ce document une détection d’arêtes basée sur
la mesure du maximum de la dérivée première de l’image d’éclairement. Afin
de diminuer le nombre d’arêtes bruitées détectées et afin d’amincir les arêtes
détectées, la détection d’arêtes est effectuée à plusieurs résolutions spatiales et
une interaction entre les arêtes détectées aux différentes échelles aide à obtenir
un croquis précis et peu bruité.
Les images d’éclairement gauche et droite sont décomposées en représentations multirésolutions selon une structure pyramidale. Chaque niveau de la
pyramide représente l’image d’éclairement correspondante à une résolution
spatiale σ. Les arêtes de l’image sont d’abord détectées à chacun des niveaux
des deux pyramides. Afin de détecter le gradient de l’arête en chaque position
de pixel de chacune des images, la dérivée partielle selon l’horizontale et la dérivée partielle selon la verticale sont calculées à l’aide de connexions latérales
dans le voisinage 3x3 du pixel d’intérêt. Des masques de Sobel sont utilisés pour
la mesure des dérivées partielles. Le champ récepteur pour la mesure des dérivées partielles est illustré à la figure 4.7. La sortie du neurone au pixel d’intérêt
est égal à la somme de la valeur absolue des deux dérivées partielles, ce qui
constitue une approximation de l’amplitude du gradient à cette position. Cette
approximation s’avère suffisante pour les besoins de notre détecteur puisqu’elle
sera toujours positive, comme l’amplitude, et qu’elle sera toujours plus grande
Section 4.4
101
Amincissement des arêtes
Gradient:
dx
dy
sortie = |dx| + |dy|
Figure 4.7
Champ récepteur de gradient.
Champ récepteur pour la mesure d’une approximation du
gradient. Les masques sont des masques de Sobel. Un cercle
noir indique une connexion avec un poids négatif dont
l’amplitude est proportionnelle à la grandeur du cercle.
que la valeur de l’amplitude, et donc qu’elle accentuera la présence d’une arête.
Les masques de Sobel utilisés ont comme valeurs de poids :
–1 0 1
dx = – 2 0 2
–1 0 1
dy =
–1 –2 –1
0 0 0
1 2 1
(4.11)
Les arêtes détectées par une méthode de gradient sont la plupart du temps
trop larges pour permettre une localisation précise de celle-ci. Le module suivant de traitement, le module stéréo, nécessite une localisation précise des arêtes appariées afin d’obtenir une mesure fiable et précise de la disparité. Nous
devons donc amincir les arêtes détectées de telle sorte qu’un neurone activé
représente une arête, et donc un maximum de la dérivée première.
4.4 AMINCISSEMENT DES ARÊTES
L’amincissement des arêtes peut être réalisé de différentes façons (Jang, et
al., 1990; Lam, Lee, & Suen, 1992). Nous proposons un simple réseau de compétition qui favorise les neurones les plus activés dans le groupe de compétition.
102
Chapitre 4
Un réseau de compétition est construit pour tous les groupes de 2x2 neurones de toutes les couches des deux pyramides gauche et droite. Le réseau de
compétition est illustré à la figure 4.8 pour un groupe de 4 neurones. Le poids
niveau
n
Figure 4.8
Réseau de compétition.
Chaque regroupement de 2x2 neurones est interconnecté en
réseau de compétition. La figure ne montre les connexions que
pour un des neurones. Le même schéma se répète pour les
autres neurones. Le lien d’excitation a un poids de 0,3 tandis
que les liens d’inhibition provenant des autres neurones ont un
poids de -0,1. La fonction d’activation des neurones est la
fonction iac de Rumelhart-McClelland. Le circuit fonctionne
de telle sorte que les un ou deux neurones les plus activés
tendent vers une sortie pleinement activée tandis que la sortie
des autres neurones décroît vers zéro.
des connexions d’auto-excitation est de 0,3 tandis que le poids des connexions
d’inhibition est de -0,11. La fonction d’activation des neurones à cette étape de
la simulation est la fonction d’activation interactive et compétitive de Rumelhart
& McClelland.L’équation d’activation iac est décrite par l’équation
différentielle :
dx = ( B – x )net – Ax
dx = ( x – C )net – Ax
net > 0
net ≤ 0
(4.12)
avec : dx : x(n+1) - x(n). Différentielle de la valeur d’activation
1. Plusieurs valeurs de poids pour les liens d’inhibition et d’excitation ont été
expérimentées. La combinaison mentionnée dans le texte est celle qui a donné les
meilleurs résultats tant du point de vue vitesse de convergence vers un état stable que
du point de vue capacité à conserver les arêtes les plus activées. Cette combinaison a
été trouvé de façon plutôt empirique, quoiqu’un bon fonctionnement du réseau
demande que le poids du lien d’excitation soit égal ou supérieur à la somme de la
valeur absolue des poids d’inhibition.
Section 4.5
Renforcement des arêtes
103
entre l’instant présent n+1 et l’instant précédent n.
x : la valeur d’activation au temps n.
A : facteur de décroissance. Paramètre de contre-réaction qui
fait que le neurone se comporte comme un système discret
du 1er ordre. Le facteur (1-A) détermine le degré de contreréaction. Une valeur de A unitaire indique l’absence de
contre-réaction.
B : valeur maximale atteinte par la valeur d’activation.
C : valeur minimale atteinte par la valeur d’activation.
net :
∑ Wij Oj : valeur nette à l’entrée du neurone.
j
Le comportement du réseau qui résulte de cette configuration est tel que la sortie
des un ou deux neurones les plus activés tend vers une valeur de pleine
activation tandis que la sortie des autres neurones décroît vers la valeur
minimum d’activation du neurone, soit zéro.
L’amincissement des arêtes assure une localisation précise des arêtes mais
ne garantit pas que l’arête détectée soit générée par une primitive physique de
la scène observée, et non une arête de bruit générée par la caméra ou le système
d’échantillonnage. L’information détectée aux autres niveaux de la pyramide
aide dans la décision de garder ou de rejeter une arête détectée.
4.5 RENFORCEMENT DES ARÊTES
Selon (Marr, 1982), un attribut physique de la scène observée apparaît à au
moins deux échelles spatiales consécutives sur l’image. Une arête qui n’apparaît
que sur la couche à haute résolution est probablement une arête de bruit et doit
donc être éliminée du croquis qui sera soumis à l’appariement stéréoscopique.
104
Chapitre 4
La représentation des arêtes aux différents niveaux de résolution spatiale de la
pyramide est illustrée à la figure 4.9.
Figure 4.9
Comportement des arêtes à multiple résolutions.
Comportement des arêtes dans une représentation pyramidale
multirésolution. Les arêtes qui correspondent à des
caractéristiques physiques de la scène observée sont
présentes à au moins deux niveaux consécutifs. Les arêtes de
bruit produites par le système de caméra ou par la nature
discrète de l’échantillonnage n’apparaissent qu’aux niveaux
à haute résolution.
La recherche sur le comportement des arêtes le long de l’espace d’échelle
est abondante et diversifiée. L’ensemble de ces travaux a comme objectif
d’identifier une arête sur une image à faible résolution et de projeter cette arête
sur l’image à haute résolution afin de la localiser avec précision. (Bergholm,
1987), dans un papier majeur pour la poursuite d’arêtes à travers l’espace
d’échelles, propose une poursuite continue d’une arête à partir d’une échelle à
résolution grossière. Le changement d’échelle est continu et la variation du facteur d’échelle est telle que la position de l’arête poursuivie ne change pas plus
d’un seul pixel. Lu et Jain (Lu, & Jain, 1989; Lu, & Jain, 1992) décrivent le
comportement des arêtes le long de l’échelle spatiale. Ils détaillent le comportement de deux arêtes voisines qui peuvent se disloquer, se fusionner ou disparaître. (Mallat, & Zhong, 1992), pour leur part, étudient le comportement d’un
détecteur de Canny à travers l’espace d’échelles spatiales. Un détecteur de
Canny est équivalent à trouver les maxima locaux d’une transformée d’ondelettes. L’article est une étude des propriétés des arêtes multirésolutions à travers la
Section 4.5
Renforcement des arêtes
105
théorie des ondelettes. Finalement, (Ziou, & Tabbone, 1991) d’une part, puis
(Perl, & Marsland, 1992) utilisent seulement deux échelles spatiales pour la
poursuite des arêtes à travers l’espace d’échelles.
La recherche des arêtes à multiples résolutions spatiales présuppose
qu’aucune nouvelle arête n’est générée à mesure que la résolution est baissée.
Le choix du filtre gaussien pour la génération de la représentation multirésolution assure qu’il n’y aura pas de nouvelles arêtes. De plus, l’opérateur de détection des arêtes doit être un opérateur de différentiation linéaire, par exemple le
passage par zéro du laplacien, qui est un opérateur de dérivée seconde nondirectionnelle, et le maximum de la dérivée première (Tihanyi, & Barron, 1990).
Cette contrainte exclut explicitement le détecteur de Canny, qui est un opérateur
directionnel et non-linéaire. L’opérateur utilisé pour les travaux de cette thèse
est la somme de l’amplitude absolue des dérivées partielles selon l’horizontale
et la verticale. L’opérateur de valeur absolue, qui n’est pas linéaire, ne sert qu’à
estimer l’amplitude de la dérivée première de l’image. L’opération de détection
des arêtes par approximation de l’amplitude du gradient remplit donc la condition de non-génération d’arêtes à mesure que la résolution diminue puisque ce
sont les dérivées partielles de l’image filtrée qui sont calculées, des opérations
de différentiation qui sont linéaires.
Nous utilisons, pour le renforcement des arêtes, les quatre échelles spatiales
utilisées pour la représentation multirésolution de chaque image d’éclairement
gauche et droite. À un niveau de résolution spatiale donné, une arête est conservée (renforcement) si cette dernière est présente au niveau de la pyramide juste
au dessus (et donc de résolution moindre). L’arête doit être écartée, particulièrement si elle se trouve au niveau de plus haute résolution, si elle n’est pas présente au niveau au dessus : dans ce cas, on n’est vraisemblablement pas en
présence d’une arête causée par une primitive physique de la scène observée. Le
renforcement d’arêtes selon leur présence aux niveaux de plus basse résolution
est réalisé selon la règle d’apprentissage de renforcement, soit en modifiant
les poids du circuit d’amincissement décrit à la section précédente selon que le
neurone au niveau juste au dessus est activé ou non. Le processus de renforcement d’arêtes est illustré à la figure 4.10. Le renforcement d’arêtes est réalisé en
modulant les poids du circuit d’amincissement par la valeur de sortie du neurone
situé juste au dessus, au niveau suivant de moindre résolution de la pyramide. Si
ce neurone est activé, indiquant que l’arête se retrouve à ce niveau de résolution,
le réseau d’amincissement opère normalement et son comportement dynamique
est tel que décrit à la section précédente. Les liens partant du neurone au niveau
n+1 et qui modulent les poids du circuit de compétition ont un poids de 5. Si le
neurone au niveau au dessus n’est pas ou est peu activé, indiquant l’absence
106
Chapitre 4
niveau
n+1
niveau
n
Figure 4.10 Renforcement des arêtes.
Le circuit d’amincissement d’arêtes opère normalement si le
neurone au niveau de résolution juste au dessus est activé,
indiquant la présence de l’arête à ce niveau de résolution
moindre. Si l’arête détectée n’apparait pas au niveau au
dessus, elle est considérée comme une arête de bruit et le
poids de toutes les connexions du circuit de compétition tend
vers zéro, entraînant que l’activité des 4 neurones du groupe
tendra vers zéro, effaçant l’arête de bruit détectée.
d’arêtes à cet endroit, les poids du circuit de compétition en dessous ont une
valeur tendant vers zéro, ce qui entraîne que l’activité des 4 neurones du groupe
décroît vers zéro, effaçant ainsi la présence d’une arête de bruit.
4.6 RÉSULTATS EXPÉRIMENTAUX
Le réseau de détection d’arêtes fut d’abord testé sur une image passablement
complexe qui est largement utilisée dans la littérature pour vérifier et comparer
les résultats de divers algorithmes de traitement d’image. L’image Lenna est
illustrée à la figure 4.11. La première étape de détection latérale des arêtes à chaque niveau de la pyramide est illustrée à la figure 4.12. Le croquis ainsi généré
n’est le résultat que de la détection latérale des arêtes, c’est-à-dire que la sortie
de chaque neurone est une approximation de l’amplitude du gradient à cet
emplacement. Les dérivées partielles selon x et y nécessaires au calcul du gradient sont approximées par des champs récepteurs ayant la forme de masque de
Section 4.6
Résultats expérimentaux
107
Figure 4.11 Image de Lenna.
Image pour illustrer l’algorithme neuronique de détection
d’arêtes.
Sobel. Durant les étapes subséquentes de l’algorithme, les arêtes sont amincies
grâce aux réseaux de compétition 2x2 et sont renforcées lorsque l’arête est présente au niveau juste au dessus, et encore plus si l’arête est présente à plus d’un
niveau au dessus dans la pyramide. Le résultat de l’amincissement et du renforcement apparaît à la figure 4.13, où le croquis à pleine résolution aminci et ren-
Figure 4.13 Amincissement et renforcement des arêtes.
Le résultat de la détection latérale d’arêtes, à gauche, est
comparé au résultat du renforcement et de l’amincissement
après deux tops d’horloge.
forcé après deux tops d’horloge est comparé au croquis pleine résolution
résultant de la détection latérale seulement. Les arêtes correspondant aux attributs physiques de la scène originale ont été conservées tandis que celles correspondant à des détails non-significatifs ou produites par l’erreur de quantification
dans la production de l’image ont été éliminées.
108
σ = 2 √3
Chapitre 4
σ = √3
σ = √3 / 2
σ = 0 (pleine résolution)
Figure 4.12 Croquis multirésolution de l’image Lenna.
Croquis de l’image Lenna aux 4 niveaux de résolution de la
pyramide. Aucun amincissement ni renforcement ne sont
appliqués.
CONCLUSION
La détection des arêtes constitue la première étape du système de vision et
produit le croquis, la première forme de représentation interne de données du
système. Nous nous sommes d’abord interrogé sur la nature des arêtes dans une
image et leur relation avec des attributs physiques de la scène observée dont
nous étudions une représentation par image d’éclairement produite par une
caméra. Nous avons ensuite procédé à une analyse des méthodes classiques de
détection d’arêtes. Puis, nous avons décrit la méthode de détection proposée
dans ce document, soit une technique neuronique multirésolution qui utilise
Section 4.6
Conclusion
109
l’information présente à plusieurs niveaux de résolution spatiale afin d’en arriver à la construction d’un croquis précis qui représente les primitives physiques
de la scène sous observation.
Le croquis est la première forme de représentation interne du système de
vision. Cette représentation interne sert d’entrée à des algorithmes tel la stéréoscopie et l’analyse du mouvement. Ces algorithmes nécessitent une localisation
précise des arêtes de chacune des images gauche et droite et produisent
l’esquisse, une forme de représentation interne qui mesure la profondeur de la
scène aux différents points caractéristiques de cette dernière.
110
Chapitre 4
RÉFÉRENCES
Ballard, D. H. (1981). Generalizing the Hough transform to detect arbitrary
shapes. Pattern Recognition, 13(2), 111-122.
Barr, A., Cohen, P. R., & Feigenbaum, E. A. (Ed.). (1989). The Handbook of
Artificial Intelligence . Reading, Mass.: Addison-Wesley.
Basseville, M. (1979). Détection de contours: méthodes et études comparatives.
Ann. Télécommunic., 34(11-12), 559-579.
Bergholm, F. (1987). Edge Focusing. IEEE Transactions on Pattern Analysis
and Machine Intelligence, PAMI-9(6), 726-741.
Besançon, J. E. (1988). Vision par ordinateur en deux et trois dimensions . Paris:
Eyrolles.
Bhatia, P., Srinivasan, V., & Ong, S. H. (1991). Single-layer edge detector with
competitive unsupervised learning. Proceedings of the International Joint
Conference on Neural Networks, Singapore, 1, 634-639.
Boyer, K. L., & Sarkar, S. (1992). Assessing the State of the Art in Edge
Detection: 1992. Proceedings of the SPIE Applications of Artificial
Intelligence X: Machine Vision and Robotics, Orlando, Florida, 22-24 april,
1708, 353-362.
Brzakovic, D., Patton, R., & Wang, R. L. (1991). Rule-Based Multitemplate
Edge Detector. Computer Vision, Graphics and Image Processing:
Graphical Models and Image Processing, 53(3), 258-268.
Canny, J. (1986). A Computational Approach to Edge Detection. IEEE
Transactions on Pattern Analysis and Machine Intelligence, PAMI-8(6),
679-698.
Carpenter, G. A., Grossberg, S., & Mehanian, C. (1989). Invariant Recognition
of Cluttered Scenes by a Self-Organizing ART Architecture: CORT-X
Boundary Segmentation. Neural Networks, 2, 169-181.
Section 4.6
Références
111
Chen, J.-S. (1992). Generalized Adaptive Smoothing for multiscale edge
detection. Proceedings of the SPIE Applications of Artificial Intelligence X:
Machine Vision and Robotics, Orlando, Florida, 22-24 april, 1708, 341-352.
Chen, M.-H., & Yan, P.-F. (1989). A Multiscaling Approach Based on
Morphological Filtering. IEEE Transactions on Pattern Analysis and
Machine Intelligence, 11(7), 694-700.
Clark, J. J., & Lawrence, P. D. (1984). A Hierarchical Image Analysis System
Based Upon Oriented Zero Crossings of Bandpassed Images. In A.
Rosenfeld (Ed.), Multiresolution Image Processing and Analysis (pp. 148168). New York: Springer-Verlag.
Cohen, P. R., & Feigenbaum, E. A. (Ed.). (1982). The Handbook of Artificial
Intelligence . Reading, Mass.: Addison-Wesley.
Daugman, J. G. (1987). Image Analysis and Compact Coding by Oriented 2D
Gabor Primitives. Proceedings of the SPIE: Image Understanding and the
Man-Machine Interface, 758, 19-30.
Etemad, K., & Chellappa, R. (1993). A Neural Network Based Edge Detector.
Proceedings of the IEEE Internatinal Conference on Neural Networks, San
Francisco, CA, March 28 - April 1, 1, 132-137.
Fleck, M. M. (1992). Multiple Widths Yield Reliable Finite Differences. IEEE
Transactions on Pattern Analysis and Machine Intelligence, 14(4), 412-429.
Freeman, W. T., & Adelson, E. H. (1990). Steerable Filters for Early Vision,
Image Analysis, and Wavelet Decomposition. Proceedings of the 3rd ICCV90: Third International Conference on Computer Vision, Osaka, Japan, Dec.
4-7, 406-415.
Gaussier, P., & Cocquerez, J.-P. (1992). Neural networks for complex scene
recognition: simulation of a visual system with several cortical areas.
Proceedings of the IJCNN '92 Baltimore - International Joint Conference on
Neural Networks, Baltimore, Maryland, June 7-11, III, III-233 - III-259.
Gonzalez, R. C., & Wintz, P. (1977). Digital Image Processing . London:
Addison-Wesley.
112
Chapitre 4
Grimson, W. E. L. (1981). From Images to Surfaces - A Computational Study of
the Human Early Visual System . Cambridge, Mass.: The MIT Press.
Grossberg, S., & Mingolla, E. (1985). Neural dynamics of perceptual grouping:
Textures, boundaries, and emergent segmentations. Perception and
Psychophysics, 38(2), 141-171.
Grossberg, S., & Todorovic, D. (1988). Neural dynamics of 1-D and 2-D
brightness perception: A unified model of classical and recent phenomena.
Perception and Psychophysics, 43, 241-277.
Grossberg, S., & Wyse, L. (1991). Invariant Recognition of Cluttered Scenes by
a Self-Organizing ART Architecture: Figure-Ground Separation.
Proceedings of the IEEE INNS International Joint Conference on Neural
Networks - Seattle, Seattle, Washington, July 8-12, 1, I-633 - I-638.
Hildreth, E. C. (1983). The Detection of Intensity Changes by Computer and
Biological Vision Systems. Computer Vision, Graphics, and Image
Processing, 22, 1-27.
Hubel, D. H., & Wiesel, T. N. (1959). Receptive fields of single neurones in the
cat's striate cortex. Journal of Physiology, 148, 574-591.
Jain, A. K. (1989). Fundamentals of Digital Image Processing . Englewood
Cliffs, NJ: Prentice Hall.
Jang, B.-K., & Chin, R. T. (1990). Analysis of Thinning Algorithms Using
Mathematical Morphology. IEEE Transactions on Pattern Analysis and
Lam, L., Lee, S.-W., & Suen, C. Y. (1992). Thinning Methodologies - A
Comprehensive Survey. IEEE Transactions on Pattern Analysis and
Lepage, R., & Crevier, D. (1994). Multiresolution neural network for the
extraction of the primal sketch. Proceedings of the SPIE Intelligent Robots
and Computer Vision XIII: Algorithms and Computer Vision, Boston,
Massachusetts, 31 October - 2 November, 2353, 375-384.
Section 4.6
Références
113
Lepage, R., Laurendeau, D., & Gagnon, R. (1992). Extraction of texture
features with a multiresolution neural network. Proceedings of the SPIE:
Applications of Artificial Neural Networks III, Orlando, Florida, 21-24 april,
1709, 64-75.
Lepage, R., & Poussart, D. (1991). A Neural Network for Multiresolution Edge
Detection. Proceedings of the Canadian Conference on Electrical and
Computer Engineering, Québec (Québec) Canada, September 25-27, 1,
25.1.1 - 25.1.4.
Lepage, R., & Poussart, D. (1992). Multiresolution Edge Detection.
Proceedings of the IJCNN '92 Baltimore - International Joint Conference on
Neural Networks, Baltimore, Maryland, June 7-11, IV, IV-438 - IV-443.
Levine, M. D. (1985). Vision in man and machine . New York: McGraw-Hill.
Lu, Y., & Jain, R. C. (1989). Behavior of Edges in Scale Space. IEEE
Lu, Y., & Jain, R. C. (1992). Reasoning about Edges in Scale Space. IEEE
Mallat, S., & Zhong, S. (1992). Characterization of Signals from Multiscale
Edges. IEEE Transactions on Pattern Analysis and Machine Intelligence,
14(7), 710-732.
Marr, D. (1982). Vision - A Computational Investigation into the Human
Representation and Processing of Visual Information . San Francisco:
Freeman.
Marr, D., & Hildreth, E. (1980). Theory of edge detection. Proceedings of the
Royal Society of London, Series B, 207, 187-217.
McMichael, D. (1992). Fusing Multiple Images and Extracting Features for
Visual Inspection (No. 762). Control Systems Centre, UMIST, Manchester,
UK.
Mkaouar, M., & Lepage, R. (1995). Extraction des caractéristiques d'une image
par analyse à multiple résolutions spatiales. Proceedings of the Congrès
canadien en génie électrique et informatique, Montréal, Québec, du 5 au 8
septembre, 1176-1179.
114
Chapitre 4
Mkaouar, M., & Lepage, R. (1996). Le Perceptron multi-couches pour la
détection des arêtes d'une image. Proceedings of the Vision Interface '96,
Toronto (Ontario) Canada, 21-24 mai, 41-48.
Moran, C. J. (1990). A Morphological Transformation for Sharpening Edges of
Features before Segmentation. Computer Vision, Graphics, and Image
Processing, 49, 85-94.
Moura, L., & Martins, F. C. M. (1991). Edge Detection Through Cooperation
and Competition. Proceedings of the International Joint Conference on
Neural Networks, Singapore, 3, 2588-2593.
Narbel, P. (1990). The zero-crossings of the Laplacian of Gaussian and their
limitations (No. 90.05). Geneva University.
Perl, D., & Marsland, T. A. (1992). An adaptive neural network for image
enhancement (ANNIE). Proceedings of the SPIE: Applications of Artificial
Neural Networks III, Orlando, Florida, 21-24 april, 1709, 76-86.
Princen, J., Illingworth, J., & Kittler, J. (1990). A Hierarchical Approach to Line
Extraction Based on the Hough Transform. Computer Vision, Graphics, and
Image Processing, 52, 57-77.
Shu, J. S.-P. (1989). One-pixel edge detection. Pattern Recognition, 22(6), 665673.
Tan, H. L., Gelfand, S. B., & Delp, E. J. (1992). A Cost Minimization Approach
to Edge Detection Using Simulated Annealing. IEEE Transactions on
Pattern Analysis and Machine Intelligence, 14(1), 3-18.
Tihanyi, E. Z., & Barron, J. L. (1990). Spatio-Temporal Edge Focusing (No.
267). Department of Computer Science, the University of Western Ontario,
London, Ontario.
Torre, V., & Poggio, T. A. (1986). On Edge Detection. IEEE Transactions on
Pattern Analysis and Machine Intelligence, PAMI-8(2), 147-163.
Ulupinar, F., & Medioni, G. (1990). Refining Edges Detected by a LoG
Operator. Computer Vision, Graphics, and Image Processing, 51, 275-298.
Section 4.6
Références
115
Wilson, H. R., & Bergen, J. R. (1979). A four mechanism model for spatial
vision. Vision Research, 19, 19-32.
Wilson, R., & Bhalerao, A. H. (1992). Kernel Designs for Efficient
Multiresolution Edge Detection and Orientation Estimation. IEEE
Ziou, D., & Tabbone, S. (1991). Fusion des contours dans un espace échelle.
Proceedings of the Treizième Colloque sur le Traitement du Signal et des
Images, Juan-les-Pins, 2, 1013 - 1016.
Zucker, S. W., David, C., Dobbins, A., & Iverson, L. (1988). The Organization
of Curve Detection: Coarse tangent fields and fine spline coverings.
Proceedings of the Second International Conference on Computer Vision,
Tampa, Florida, December 5-8, 568-577.
116
Chapitre 4

Notes

Transcription

Documents pareils

Moteur VKA 44-K - D+H Mechatronic

Test Géométrie dans l`espace

La Croix-Rousse trie ses Arêtes - Association OCRA-Lyon

ADOPTEZ L`ATTITUDE REBEL™ SUR LES ARÊTES VIVES

6ème Géométrie dans l`espace

Effet USE - Eleonore Déco

BLOcS-PORTES à REcOUVREmEnT En BOiS

decourvrir la pyramide

les polyèdres