Chapitre I : Imagerie Numérique, une introduction en douceur

Transcription

Imagerie Numérique : Introduction en douceur
Chapitre I : Imagerie Numérique, une introduction en
douceur
L'image est un des supports physiques les plus privilégiés pour transmettre un message à notre cerveau. Avant de
nous intéresser à l'image numérique en tant que telle, nous allons tout d'abord aborder – de façon très succincte –
l'image dans son aspect le plus perceptif, c'est à dire du point de vue de notre perception visuelle et du décodage
mental que nous y associons.
I.1 – Comment percevons-nous les images ?
Les mécanismes de transmission, de décodage et de synthèse du message visuel par le système nerveux sont
extrêmement complexes. Sans nous perdre dans les détails de la théorie - encore largement incomplète – du
comportement du système visuel, nous admettrons que le traitement de l'information "Image" se distingue en
deux procédures qui correspondraient à un comportement passif pour la première et à un comportement actif
pour la seconde.
I.1.a : Le comportement passif du système visuel
Ce comportement est lié aux deux notions détection et perception, associées à l'aspect le plus physique du
système visuel. Les caractéristiques de l'image qui en dépendent sont sa dimension, sa résolution, sa luminosité,
son contraste. Des expériences de psychophysique permettent d'étudier la réponse du système visuel suivant les
variations (petites ou grandes) du signal :
•
L'étude des répondes relatives à de petites variations est assez simple : on se pose la question de
savoir si elles sont au-dessus ou en dessous du seuil de détection du système visuel. La perception
de cette variation du signal induira une réponse oui ou non, assez objective.
•
Dans les expériences de perception où les variations du signal sont très grandes, le problème est
plus délicat, comme peut l'illustrer l'exemple suivant : Comment procéder pour fabriquer une
échelle de tons gris allant du blanc au noir et dont les écarts de luminosité vont paraître le plus
homogène possible, d'un point de vue perceptif, bien sur. Le processus intellectuel qui doit alors
être mis en place et largement plus complexe qu'une réponse "vu-pas vu". Il faudra entre autres
définir des critères de jugement qui permettront après entraînement de mieux sélectionner les
niveaux de gris. Nous nous situons donc à un niveau plus subjectif, notamment dépendant des
conditions globales de l'opération : la figure 1.1 illustre cette importance en montrant que la
luminosité du fond modifie déjà sérieusement la sensation que procure une échelle de gris
déterminée.
1
Figure 1.1 : L'importance de la luminosité du fond
Le comportement passif du système visuel s'explique globalement par le fait que c'est un système
essentiellement biophysique. Ses propriétés découlent des caractéristiques de sa structure, à commencer par l'œil
et la rétine pour finir avec l'immense complexité de ses connexions nerveuses.
Ce comportement peut donner lieu à quelques phénomènes particulièrement démonstratifs comme ceux de la
figure 1.2, dû aux interactions spatiales entre les régions de l'image ayant des luminosités différentes. Ces
exemples indiquent à quel point l'information image, une fois prise en charge par le système visuel, peut être
rapidement transformée et déformée.
En (a), les phénomènes trouvent leur origine au niveau des interconnexions nerveuses des cellules rétiniennes
qui effectuent un véritable filtrage linéaire. Mais dès qu'intervient un contour (b et c) des phénomènes nonlinéaires peuvent se produire. Les contours, dans certains cas peuvent procurer des résultats assez spectaculaires.
Leur explication n'est pas aussi claire que dans le cas (a) mais se situerait cependant au niveau de la structure
neurophysiologique des voies visuelles, où des cellules extrêmement spécialisées dans le traitement des contours
ont été découvertes. Mais il existe des illusions notamment sur la dimension des formes (d) pour lesquelles on est
plus en mesure de donner une explication d'ordre neurophysiologique. Elles correspondraient à des processus
mentaux beaucoup plus complexes. Le système visuel ne jouerait plus alors dans ce cas un rôle aussi passif.
2
(a)
l'illusion de Hermann : le centre des croisements de la grille blanche (inversement noire) paraît plus
sombre (inversement claire) excepté celui où l'on fixe le regard : la partie centrale de la rétine ne traite
pas l'image de la même manière que sa partie périphérique.
(b)
Les contours, vrais ou faux (image de gauche) , jouent par leur orientation un rôle primordial dans
certains effets. A droite, l'illusion de Zöllner et une de ses variantes : Les verticales dans l'image de
gauche et les horizontales dans l'image de droite sont en fait des parallèles.
(c)
La fausse spirale de Frazier et sa variante sont en fait composées de cercles concentriques
(d)
Illusion de Tichener et variante : les cercles centraux sont de tailles identiques tout comme les deux
segments horizontaux
Figure 1.2 : Phénomènes dus aux interactions spatiales dans l'image
3
I.1.b : Le comportement actif du système visuel
Le rôle actif du système visuel se situe essentiellement au niveau des aires supérieures du cerveau où
l'information image arrive après une série de transformations et de codages que nous n'avons fait qu'entrevoir.
L'information y est alors rassemblée et synthétisée par des opérations mentales très nombreuses mais encore
inconnues. Ces opérations pilotent alors le processus d'interprétation de l'information visuelle.
Cette interprétation peut être radicalement influencée par le contexte spatial et la perspective. La figure 1.3 que
selon ce contexte, la forme élémentaire trapézoïdale peut être perçue en position debout ou allongée.
Figure 1.3 : La perception d'une forme est modifiée selon le contexte spatial où elle est située
La présence d'éléments de perspective ou de gradients de texture donne en effet de fortes indications sur les
distances relatives des objets et permet à l'observateur de mieux structurer l'espace qu'il regarde. La figure 1.4
illustre ce processus où des déformations planes sont finalement interprétées comme des volumes cachés sous un
damier régulier.
Figure 1.4 : Rôle des gradients de texture dans "Arlequin" et "Véga" de Vasarely
Ces indications peuvent aussi agir sur des mécanismes mentaux particuliers comme celui de la constance de la
taille et provoquer de fortes illusions géométriques. L'exemple de la figure 1.5 présente 3 motifs identiques et
dont les images rétiniennes ont par conséquent la même taille.
Ces exemples soulignent le caractère actif avec lequel le cerveau reconstruit l'information image mais
n'indiquent pas la manière avec laquelle il procède pour y parvenir. Comment faisons-nous pour reconnaître les
formes, analyser les scènes ? Actuellement, ces questions n'ont pas encore trouvé de réponses satisfaisantes.
4
Figure 1.5 : Illusion géométrique sur la taille provoquée par la perspective
Quelques approches par le biais de la théorie de l'information ont été tentées mais semblent être restées jusqu'ici
stériles. En fait, une constatation toute simple permet de montrer combien il est difficile d'attaquer le problème
de cette manière. La figure 1.6 représente la même photographie en positif et en négatif. Malgré le fait qu'un
positif et un négatif contiennent au signe près la même quantité d'information, il est extrêmement difficile de
reconnaître une personne sur un négatif sans entraînement préalable.
Figure 1.6 : Négatif et positif d'une même personne.
L'approche par les gestaltistes, très différente a donné de meilleurs résultats. Pour eux, la perception des signes,
des objets ne s'expliquerait pas par un processus de concaténation ou de sommation en série de leurs différentes
parties. Ils seraient perçus comme un tout. Considérons les trois segments de la figure 1.7 : lorsqu'ils finissent
par se rapprocher suffisamment pour se rejoindre, ils forment une figure triangulaire que l'on perçoit en soi plutôt
que comme le résultat de ce rapprochement.
Figure 1.7 : Le triangle est perçu comme une unité graphique en soi
Cette construction suivrait un certain nombre de lois de perception qui sont illustrées sur la figure 1.8 :
5
Loi de similitude :
on regroupe les
zones ayant des
"caractéristiques"
similaires
Loi de continuité :
au lieu de percevoir
3 formes côte à
côte, on préfère
voir une ligne
courbe et une ligne
rectangulaire
superposée
Loi de proximité : on structure l'information en sous-ensembles d'éléments les plus proches possibles les uns des
autres
Loi de fermeture : on perçoit deux formes fermées se touchant en un point plutôt que deux courbes quelconques
se croisant
Le fait qu'on perçoive deux trames de carrés imbriquées plutôt que la simple juxtaposition de l'élément de droite
est une conséquence de ces lois.
Figure 1.8 : Lois de perception d'après les gestaltistes
Ces lois pousseraient à croire qu'il existe une sorte de principe de simplicité qui dirigerait le cerveau et lui
permettrait de limiter au maximum ses efforts pour reconstruire l'information. C'est une idée un peu naïve, mais
prenons par exemple le cas des surfaces subjectives de la figure 1.9. Le triangle blanc à droite n'a pas de contour
réel pourtant on le perçoit très vivement. Il paraît même être plus lumineux que le fond. Or, qu'y a t-il dans cette
image ? Trois angles et trois disques tronqués. Ces formes paraissent incomplètes au cerveau. Il lui suffit alors de
faire l'hypothèse supplémentaire de la présence d'un triangle blanc recouvrant ces formes pour que l'image
s'organise plus simplement.
6
Figure 1.9 : Deux triangles subjectifs qui n'ont pas de contour (d'après G. Kanizsa, Scientific American, avril
1976)
On peut donc constater que le cerveau ne se contente pas de percevoir ce qui existe dans le signal. Il n'hésite pas
à le compléter si cela l'arrange, c'est à dire si cela lui permet de faire son travail à moindre frais. Ce que le
cerveau rajoute au signal pour effectuer ces opérations constructives dépend bien sûr de l'image mais aussi de la
mémoire. Plus la mémoire pourra apporter d'éléments significatifs pour comprendre l'image regardée et moins on
aura besoin de signal pour percevoir l'information.
Il est des cas où le cerveau peut construire pour une image donnée plusieurs solutions distinctes. Ces solutions
s'excluent mutuellement car on n'en perçoit que l'une des deux et le passage de l'une à l'autre demande un
important effort intellectuel. La figure 1.10 présente deux exemples célèbres de ces figures ambiguës.
Figure 1.10 : Exemples de figures ambiguës : femme jeune/vieille de R. Leeper et vase/visages
Certains reconnaîtront une vieille femme et d'autres une jeune femme fort élégante. Pourquoi ? De nombreux
facteurs psychologiques interviennent et la mémoire joue encore ici un rôle prépondérant surtout si on la stimule
sélectivement, par exemple en racontant au préalable des histoires de vieille rombière ou au contraire des contes
romantiques.
Inversement, avec les images en fausse perspective, le cerveau ne parvient pas à construire de solution cohérente,
ce qui provoque même une certaine gêne mentale. La figure 1.11 présente deux exemples célèbres : le fameux
"trident impossible" dont on ne sait s'il a deux ou trois dents et le classique "escalier de Penrose" qui n'en finit
pas de descendre (ou de monter).
Figure 1.11 : Fausses perspectives : Trident impossible et escalier de Penrose
7
A la figure 1.12, cette gêne diminue et même disparaît car il faut réfléchir pour s'apercevoir que la chute d'eau ne
semble que descendre. Cette lithographie de M.C. Escher, qui reste un maître du genre, est basée sur la double
utilisation du triangle impossible qui est la fausse perspective d'un objet illusoire tri-dimensionnel : un triangle à
trois angles droits ! On retrouve également sur cette figure une autre lithographie célèbre de Escher portant sur
les fausses perspectives : Belvédère.
Figure 1.12 : La chute d'eau de M.C. Escher (Mouvement perpétuel), le triangle impossible et Belvédère
C'est le caractère réaliste de ce tableau, avec sa multitude de petits détails qui permet au cerveau de s'affranchir
de cette construction impossible.
Nous terminerons en signalant que le rôle actif du système visuel se manifeste aussi au niveau de l'analyse
physique de l'image, c'est à dire dans la composante dynamique du regard. Sans que nous en ayons réellement
conscience, nos yeux bougent beaucoup, et pas n'importe comment, lorsque l'on observe une scène. Yarbus a
enregistré ce type de mouvement en analysant les déplacement de la rétine. Le résultat est spectaculaire… et
parfois troublant.
Nous nous tourmentons cependant pas trop. Après avoir lu ces lignes, nous aurons oublié que notre système
visuel joue un rôle passif et actif et nous continuerons à lire ces lignes ou regarder autour de nous comme si de
rien n'était. Mais au fait, pour regarder ou lire, il faut distinguer de la lumière et des couleurs. Nous allons donc
retrouver la composante passive du système visuel en étudiant ou rappelant les bases essentielles de la théorie de
la couleur.
I.2 - De la lumière aux couleurs
La couleur joue évidemment un rôle fondamental en informatique graphique et de façon générale en théorie de la
vision. Ce paragraphe rappelle donc quelques notions physiques sur la lumière et la couleur pour exposer par la
suite la moyens théoriques et numériques de coder une couleur. Plusieurs systèmes permettent de décrire les
couleurs. Nous en présenterons cinq en précisant leurs avantages et inconvénients respectifs.
I.2.a: Au départ est la lumière
La lumière visible est une énergie électromagnétique qui possède une distribution spectrale d'énergie. La lumière
visible est la zone du spectre comprise entre les longueurs d'onde 380 et 770 nanomètres (zone qui s'étend du
violet au rouge, en passant par l'indigo, le bleu, le vert, le jaune et l'orange). Il est visualisé sur la figure 1.13. Le
spectre invisible est, quant à lui, constitué par les rayons gamma, X, ultraviolets, infrarouges et les ondes de
radiofréquence.
Nous connaissons tous le spectre de la lumière visible difracté par le prisme magique des gouttes d'eau lors d'un
orage.
8
Figure 1.13 : L'arc-en-ciel : spectre de la lumière visible
On appelle lumière monochromatique une lumière dont le spectre a une largeur de bande de 1 nanomètre. On a
montré - expérimentalement – que l'on pouvait reconstituer toute lumière visible à partir de trois lumières
monochromatiques bien choisies. En particulier, il ne faut pas qu'une lumière monochromatique puisse être
obtenue à partir des deux autres. Les trois couleurs ainsi choisies sont appelées couleurs primaires. Cette
expérience est connue sous le nom d'Expérience de Meye.
I.2.b: La colorimétrie
La perception de la couleur est purement psycho-physiologique. En particulier, deux couleurs de même longueur
d'onde ne provoquent pas forcément la même sensation sur le système " œil-cerveau" de deux individus
différents. Il existe à l'heure actuelle plusieurs théories justifiant le fonctionnement de ce système. La plus
connue postule l'existence de trois types de cônes sensibles respectivement au rouge, au vert et au bleu dans la
rétine de l'œil humain (figure 1.14).
Figure 1.14 : L' œil humain et les cellules sensibles à la lumière (cônes et bâtonnets)
La description d'une couleur est une problématique complexe. On citera pour mémoire les travaux de la
Commission Internationale de l'Energie (CIE) qui proposa en 1931 un modèle peu intuitif basé sur l'étude de la
distribution spectrale de l'énergie lumineuse et la détermination de valeurs de trichromacité. Nous préfèrerons
donc introduire le modèle de Munsell, datant quant à lui de 1946, définissant une couleur par :
-
-
-
sa teinte, qui est la notion utilisée pour distinguer les couleurs telles que rouge, vert, jaune… Cette
notion correspond en fait à celle de la longueur d'onde dominante de la distribution spectrale de la
couleur.
sa saturation qui permet de mesurer la proportion de couleur pure par rapport au blanc. Cette notion
permet de distinguer le rose du rouge, le bleu ciel du bleu outremer… Elle est liée à la largeur de bande
du spectre de la couleur.
sa luminance qui est liée à la notion achromatique d'intensité d'excitation visuelle, et qui est un facteur
indépendant de la teinte et de la saturation.
Remarque : l'œil humain est capable de distinguer environ 350 000 couleurs. Plus précisément, si on ne
considère que des teintes pures, environ 128 teintes peuvent êtres distinguées. Enfin, 128 niveaux d'intensité
paraissent suffisants pour que l'œil humain ne distingue pas de zonages dans une image "noir et blanc".
9
La colorimétrie - ou science de la couleur – définit trois teintes fondamentales appelées primitives additives : le
rouge, le vert et le bleu qui, mélangées, donnent le blanc. En mélangeant deux de ces trois primitives, on obtient
la couleur complémentaire de la troisième primitive (deux couleurs sont complémentaires si leur mélange
donnent du blanc). Ainsi :
- Bleu + Vert = Cyan (ou Turquoise)
- Rouge + Vert = Jaune
- Rouge + Bleu = Magenta (ou Pourpre)
Ceci peut se traduire également en soustrayant une couleur d'une autre pour en obtenir une troisième :
- Blanc – Bleu = Jaune
- Blanc – Vert = Magenta
- Blanc – Rouge = Cyan
C'est la raison pour laquelle les trois couleurs Cyan, Magenta et Jaune sont appelées les primitives soustractives.
La figure 1.15 illustre ces combinaisons.
Figure 1.15 : Synthèse de couleurs en colorimétrie
Cette distinction entre primitives additives et soustractives est importante dans la pratique de l'imagerie
numérique. En effet, les couleurs sur un écran à balayage s'obtiennent par synthèse additive, par juxtaposition de
triplets luminophores, où l'un émet dans le rouge, l'autre dans le bleu et le troisième dans le vert. Par contre, pour
la reproduction d'écran par une imprimante couleur, une couleur déjà imprimée joue le rôle d'un filtre absorbant
la couleur complémentaire de celle du filtre.
I.2.c : Les systèmes de couleur
La recherche de moyens pour désigner les couleurs dans le domaine de l'infographie a permis la définition de
quelques modèles de représentation des couleurs. Les modèles RVB, CMJ, et YIQ font l'objet du paragraphe ciaprès. Ils constituent une approche orientée vers le matériel et sont faciles à implanter sur une machine. Par
contre, il ne sont pas d'une utilisation très simple, car ils ne correspondent pas à l'intuition des couleurs du
système œil-cerveau de l'homme.
D'autres modèles sont basés sur la perception subjective. Ils ont été introduits pour modéliser les qualités
intuitives ou psychophysiologiques des couleurs. Si on ne dispose que d'un nombre limité de couleurs, l'usage
des termes du vocabulaire courant suffit pour désigner celles-ci. Ainsi, un système baptisé CNS (Color Naming
System) a été introduit en 1986 par Kaufman pour spécifier les couleurs. Basé sur la langue anglaise, il permet
de décrire les couleurs avec des règles syntaxiques strictes. Cependant, comme sur les machines actuelles on
peut disposer de plusieurs millions de couleurs, on utilise la plupart du temps des systèmes numériques. Deux
d'entres eux, les sytèmes TSI et TSL, sont présentés ici.
10
•
Le modèle RVB (Rouge, Vert, Bleu)
Ce modèle utilise un système de coordonnées cartésiennes et définit un cube unité comme indiqué sur la figure
1.16. Chaque axe correspond à une couleur primaire : rouge, vert, bleu. Une couleur est donc spécifiée en
indiquant les contributions de chaque couleur primaire. Ces couleurs sont additives, c'est-à-dire que les
contributions de chaque primaire sont ajoutées pour créer le résultat.
Bleu
Cyan
Magenta
Blanc
Vert
Noir
Rouge
Jaune
Figure 1.16: Le "cube" des couleurs dans le système RVB
•
Le modèle CMJ (Cyan, Magenta, Jaune)
Ce modèle utilise – comme RVB – un cube unité d'un système de coordonnées cartésiennes. Mais ici, ce sont les
couleurs cyan, magenta et jaunes (complémentaires de rouge, vert, bleu respectivement) qui sont représentées.
Certaines imprimantes à jet d'encre l'emploient.
•
Le modèle YIQ
Ce modèle a été adopté pour la transmission des signaux de télévision. YIQ est un recodage de RVB établi par le
National Television Standards Committee (NTSC) en 1953 afin de rendre plus efficace la transmission du signal
et la compatibilité avec les écrans de télévision noir et blanc. Ce modèle est un sous-espace de l'espace cartésien
constitué du polyèdre convexe envoyé sur le cube RVB à l'aide de la transformation :
Y 0,30 0,59 0,11R
 
  
=

V
I
0,60
−
0,28
−
0,32
 
 
  
Q 0,21 −0,52 0,31B 
Il est à noter que dans ce modèle, la composante Y = 0,30.R + 0,59.V + 0,11.B correspond au niveau de gris qui
serait affiché sur un écran monochrome (noir et blanc) à partir de la couleur de composantes RVB. Il s'agit de la
luminance.
•
Le modèle TSL (Teinte, Saturation, Luminance)
Ce modèle, dû à Smith en 1978, est fondé sur l'expérience intuitive de la perception de la couleur et utilise des
notions de teinte, saturation et luminance. Il est défini par un espace en forme d'hexagone (Figure 1.17) dont
l'axe de symétrie est l'axe de la luminance. La base de l'hexagone correspond à L=1 et contient donc toutes les
couleurs d'intensité maximale. La teinte T est mesurée par l'angle, en degrés, autour de l'axe vertical duquel il
faut tourner, le rouge étant à 0°, pour atteindre la couleur spécifiée. Enfin, la saturation varie de 0 à 1, de l'axe du
cône aux côtés de l'hexagone.
11
1
T
S
L
0
Figure 1.17 : Le système de couleurs TSL
Les valeurs intermédiaires de l'axe représentent les niveaux de gris. Le plan supérieur du cône correspond à ce
que l'on voit en regardant le cube RVB suivant la direction de la diagonale principale, le blanc étant visible.
•
Le modèle TSI (Teinte, saturation Intensité)
Ce modèle, basé sur les travaux de Ostwald, forme un sous-espace en forme de double-cône (Figure 1.18). La
teinte est définie par l'angle autour de l'axe vertical du double-cône. Les couleurs apparaissent dans l'ordre rouge,
jaune, vert, cyan, bleu et magenta. La saturation est mesurée radialement à partir de l'axe et varie de 0 à 1.
L'intensité varie de 0 (noir) à 1 (blanc).
1
T
I
S
0
Figure 1.18 : Le modèle TSI
I.2.d : Le codage numérique des couleurs
L'application du modèle RVB au codage informatique des couleurs impose de gérer chacune des composantes en
rouge, vert et bleu. Rappelons donc que dans ce modèle, une couleur c est définie par la synthèse additive
suivante :
c = r.R + v.V + b.B
avec r,v,b pris dans l'intervalle [0,1]
Remarquons qu'avec ce formalisme, le noir est représenté par le triplet (0,0,0) tandis que le blanc est représenté
par le triplet (1,1,1).
12
Le passage – obligé – du continu au discret nécessite la mise en place d'une échelle de valeurs. Il a été choisi
d'autoriser pour chacune des trois composantes 256 valeurs possibles. Chaque composante est alors codée sur 8
bits, c'est à dire un octet. Une couleurs est donc codée sur 3 octets, c'est à dire 24 bits. Le nombre de couleurs
ainsi codées est de 2563 soit 16 777 216 couleurs différentes. Ce nombre est à ramener au postulat de 350 000
couleurs distinguables par l'œil humain.
Dans ce codage, une couleur monochrome est parfaitement équilibrée en rouge, vert et bleu (diagonale principale
du cube RVB). On a donc 256 niveaux de gris distincts codables et affichables par le système informatique. Si
on se rappelle de nouveau que 128 niveaux d'intensités suffisent pour que l'œil ne distingue pas d'ombrage dans
une image noir et blanc, on admettra que ce codage 24 bits est largement suffisant.
8 bits
8 bits
8 bits
256 valeurs
256 valeurs
256 valeurs
Figure 1.19 : Le modèle RVB codé sur 24 bits
Il est intéressant de noter que certains systèmes permettent de coder une composante supplémentaire, le plus
souvent assimilée à un facteur de transparence α, lui même codé sur 8 bits. Le système de codage est alors libellé
"32 bits" et de fait, s'avère plus gourmand en mémoire vidéo.
La mémoire vidéo est l'emplacement réservé au stockage des informations relatives à l'affichage. Il s'agit d'une
mémoire volatile, le plus souvent intégré au composant vidéo qui se présente sous la forme d'une puce (chipset)
ou d'une carte d'extension (carte vidéo). A titre d'information, il est intéressant de souligner qu'en terme
d'affichage d'une image, on obtient, sur des systèmes vidéo 24 bits, les exigences suivantes :
Dénomination
VGA
SVGA
XGA
Matrice vidéo
640 x 480
800 x 600
1024 x 768
Nombre de points
307200
480 000
786 432
Mémoire vidéo nécessaire
921 600 octets
1 440 000 octets
2 359 296 octets
Certains appareillages, notamment en imagerie médicale, se démarquent d'une approche "photographique" de
l'imagerie telle que nous la concevons depuis le début de ce chapitre. L'image générée est en fait la visualisation
d'une acquisition liée à une technologie précise. La dynamique de couleurs utilisée – le plus souvent
monochromes – peut être alors plus étendue. C'est ainsi qu'un grand nombre de ces appareillages autorisent un
codage de l'image suivant une seule composante : une luminance codée sur 12 bits et permettant la détermination
de 4096 niveaux de gris différents. Cette plage dépassant largement la plage utile des 128 niveaux discernables
par l'œil humain. Nous reviendrons sur ce type de codage et ses modalités d'utilisation.
I.2.e : Les tables de couleurs
Un inconvénient du système de codage sur 24 bits est son exigence en mémoire. De plus, il n'y a pas de notion
d'ordre dans les couleurs et dans le cas d'images monochromes ou non photographiques, on aimerait pouvoir
disposer d'un système plus compact, plus rapide à utiliser et plus intuitif dans son interprétation.
Les tables de couleurs répondent à cette triple exigence. les valeurs codées sur p bits dans la mémoire ne
représente plus le codage d'une couleur en RVB mais l'adresse dans une table. L'élément correspondant de la
table contiendra quant à lui une information sur la couleur, qui sera codée sur b bits (b>p).
De façon générale, on utilise des tables indexées sur 8 bits, c'est à dire codant 256 couleurs parmi les 16 777 216
du système 24 bits (p=8, b =24). A chaque index i de la table est donc associé un triplet d'octets codant la couleur
en rouge, vert et bleu.
Remarque : Les tables monochromes codées sur 12 bits (4096 niveaux de gris) sont à classer à part car le
système RVB 24 bits ne permet pas de gérer une dynamique aussi importante en niveaux de gris.
13
I.3 – Acquisition et numérisation
I.3.a : Echantillonnage
L'opération d'échantillonnage est l'une des premières que l'on fait lors de l'acquisition d'une image. Elle permet
de convertir le signal continu issu du capteur en un signal discret. Elle utilise donc la totalité des résultats de la
théorie de l'échantillonnage ou théorie de Shannon, datant de 1948. Ces résultats sont essentiellement résumés
par le théorème suivant :
Un signal continu, de bande passante limitée, est équivalent à un ensemble discret
d'échantillons mesurés sur ce signal à intervalles suffisamment serrés (fréquence
d'échantillonnage au moins supérieure à 2 fois la fréquence maximale).
Ce théorème s'étend immédiatement à deux dimensions : on remplace les fréquences temporelles usuellement
utilisées en traitement du signal par des fréquences spatiales qui caractérisent les variations dans les images. Le
point élémentaire d'une image échantillonnée est communément appelé pixel (PIcture ELement).
En pratique, pour une image en niveaux de gris codée avec un octet par pixel (256 niveaux) il faut trouver la
fréquence maximale du spectre de ce signal bidimensionnel et appliquer le théorème de Shannon : Le long d'une
ligne (ou d'une colonne) deux pixels voisins peuvent différer au plus de 255 ; avec pSize la taille du pixel, la
fréquence maximale du signal L se calcule de la façon suivante :
L(i,j)=0 ; L(i,j+1)=255; L(i,j+2)=0 et donc Fmax_ligne = 1/2 cycle / pSize
Cependant, en traitement d'image, on rencontre généralement trois types de problèmes qui interdisent de se
replacer dans le cas d'école énoncé ci-dessus :
•
•
•
Les scènes réelles observées ne sont jamais à bande passante limitée.
Il n'est pas possible d'observer les scènes de moins l'infini à plus l'infini.
Enfin, il n'est généralement pas possible de faire des mesures ponctuelles de l'énergie lumineuse.
Ces trois limitations entraînent les conséquences suivantes :
•
•
Il est nécessaire de filtrer les hautes fréquences du signal, soit de façon optique (diaphragme, mise au
point), soit de façon électronique, soit de façon mécanique (fenêtre d'analyse).
Il demeure parfois des repliements de spectre (défaut d'aliasing) particulièrement sensibles lors des
modifications géométriques des images.
Ces modifications du signal à traiter sont particulièrement sensibles en traitement numériques des images. En
effet, le nombre des signaux à traiter est généralement très élevé et la dépendance quadratique entre le pas
d'échantillonnage et ce nombre pousse à échantillonner à des fréquences très proche du théorème de Shannon.
Par ailleurs, en traitement de l'image, on dispose du choix du réseau d'échantillonnage, c'est à dire de son pas et
de son motif. On montre d'un échantillonnage sur un maillage hexagonal est plus performant qu'un
échantillonnage sur une maille carrée si l'image à traiter possède un spectre isotrope. Ce gain se paye par une
complexité accrue de la représentation de l'image (Figure 1.20). En effet, on constate que les relations de
voisinage entre les pixels deviennent plus complexes dans un maillage hexagonal.
Figure 1.20 : Exemples de maillages carré et hexagonal
14
I.3.b : Quantification et codage
La quantification des signaux d'image a pour objectif de remplacer les niveaux continus en des niveaux discrets,
généralement en nombre réduit (256, par exemple pour un codage sur 8 bits). Elle se fait selon les critères
classiques de la théorie de la quantification, qui permet de définir pour un signal donné les seuils de décision et
les niveaux de représentation propres au codeur. Les statistiques des niveaux de gris d'une image quantifiée se
représentent alors par un histogramme indiquant le pourcentage des pixels correspondant à chacun des niveaux
de quantification.
Si l'on souhaite minimiser l'erreur quadratique moyenne de quantification pour un nombre de bits fixé, la
méthode Max permet de déterminer le quantificateur optimal comme une fonction de l'histogramme de l'image.
Certains quantificateurs, plus liés à un problème donné, prennent également en compte d'autres erreurs, comme
les erreurs de transmission par exemple.
Le codage des images est une étape primordiale, qui a pour but de réduire le volume des informations
transmises. Une analyse statistique fine permet de conclure qu'une image codée sur 8 bits peut généralement être
ramenée à un message codé sur 4 bits par pixel, simplement en tirant profit des redondances statistiques du
signal. Si l'on souhaite descendre à des débits plus faibles, il convient de mettre en œuvre des codages avec perte
d'information. On a beaucoup étudié des codeurs qui utilisaient les tolérances du système visuel humain pour
perdre l'information aux endroits où elle gène peu l'observateur.
Trois grandes familles de codeurs ont ainsi été crées :
•
•
•
Les codeurs par prédiction
Les codeurs par transformation orthogonale
Les codeurs par blocs
I.3.c : Quelques exemples de périphériques d'acquisition
Il est illusoire de vouloir dresser ici un inventaire exhaustif des technologie d'acquisition d'image. Nous en ferons
donc ici un survol illustratif.
•
La photographie numérique : Elle intègre dans un même appareil le dispositif optique de prise de vue et
l'électronique de numérisation. Les appareils entièrement numériques sont basés sur la technologie CCD
que l'on retrouve dans les caméras vidéo.
•
La vidéo numérique : Les cartes de numérisation vidéo offrent une grande variété de possibilités qui
sont liées à l'origine du signal vidéo et au standard utilisé (PAL, SECAM, NTSC). La qualité de l'image
dépend en particulier du type de signal d'entrée analogique. On distingue :
-
les signaux primaires en Rouge, Vert, Bleu,
les signaux séparant la luminance [Y] de l'information contenant la couleur (chrominance) [C],
signaux dits à composantes,
les signaux composites où luminance et chrominance sont codées sur un signal unique.
La résolution des images vidéo dépend du nombre de lignes permettant le balayage d'une image
complète. Elle est de 625 lignes pour les normes PAL et SECAM, dont seulement 575 sont visualisées.
Pour accélérer l'affichage, le balayage est entrelacé : la première trame correspond aux lignes impaires
(1/50 ème de seconde), la deuxième trame aux lignes paires. Une image est donc rafraîchie tous les 1/25
seconde.
La numérisation en temps réel suppose que l'opération puisse être effectuée en 1/25 seconde, ce qui
impose pour un débit de 200 Ko/s de comprimer fortement les données et de réduire la taille de l'image
(320 x 200) pour respecter la cadence de 25 images par seconde. Dans le domaine du multimédia, de
gros progrès ont été réalisés récemment pour fournir des séquences vidéo numérisées très compactes.
Les cartes de compression à la norme MPEG, le standard émergeant pour la vidéo numérique, ne sont
15
cependant pas encore à la portée des utilisateurs non professionnels ou occasionnels ; par contre la
décompression MPEG, éventuellement par logiciel, est tout à fait accessible
•
Les numériseurs d'image (scanners à plats, scanners à diapositives) : Un scanner est un dispositif à
balayage qui analyse point par point la lumière réfléchie par un document. A partir d'un document
photographique en couleurs, la numérisation avec un scanner produit en général un triplet de valeurs
numériques pour chaque pixel, triplet dont la signification dépend du modèle de représentation de la
lumière choisi. On caractérise les scanners par:
-
leur résolution en points par pouce (ppp) [dpi]. Une résolution de 300 ppp correspond à un
pixel de 0.085 mm de côté.
leur dynamique. Le nombre de niveaux de quantification varie de 2 (noir ou blanc des dessins
`au trait') à 256 ou plus par composante colorée.
- leur domaine spectral. Les scanners couleur analysent le document dans trois bandes de
fréquence correspondant globalement au rouge, vert et bleu. Les scanners noir et blanc
analysent globalement l'ensemble du spectre visible (luminance), avec cependant une
sensibilité différente de celle de l' œil, l'image numérisée ne correspondant pas toujours à la
perception du document par l'utilisateur, ce que certains logiciels peuvent corriger (gammacorrection).
•
L'imagerie médicale : La médecine nucléaire (scintigraphie), l'échographie, l'angiographie numérisée,
l'imagerie par résonance magnétique et la tomodensitométrie X sont quelques exemples des
technologies d'imagerie médicale, possédant des champs d'application spécifiques et fournissant la
plupart du temps des images monochromes, selon une dynamique plus ou moins importante de niveaux
de gris.
•
La microscopie électronique
I.4 : Enregistrement de l'image numérique
I.4.a : Bitmap vs Vectoriel
L'enregistrement des images numériques sur des supports informatiques (magnétiques ou optiques) nous plonge
dans le vaste univers des formats de fichiers graphiques.
De façon très générale, on distingue deux types de fichiers d'images représentant deux approches différentes de
la représentation d'une scène : une approche de type échantillonnage (point par point ou bitmap) et une approche
plus descriptive dénommée vectorielle.
•
L'approche bitmap
Il s'agit du transcodage de l'échantillonnage réalisé à partir de l'image analogique. Ce système de codage,
finalement assez universel, consiste à décomposer le document en un certain nombre de points élémentaires
caractérisés par leur coordonnées spatiales et leur couleur.
La "grille" d'échantillonnage est donc rectangulaire et caractérisée par un nombre de lignes et un nombre de
colonnes.
Les avantages de cette technique sont assez intuitifs à énoncer :
-
Adéquation aux périphériques
Adéquation aux images complexes
Adéquation au traitement d'image
Compatibilité aisée entre les différents formats
Intégrité des données dans un fichier
Naturellement, les inconvénients des images bitmap en sont les conséquences :
16
-
Résolution fixe
Modifications spatiales difficiles
Puissance de traitement importante à fournir
Encombrement
•
L'approche vectorielle
Cette approche tend à coder une description géométrique de l'image. Ce système est directement dérivé de la
CAO et on travaille alors sur des "objets". Le document numérisé prend alors la forme d'une suite de formules
mathématiques décrivant les formes élémentaires constituant l'image (rectangles, ellipses, lignes, splines,
courbes de Bezier). A chaque forme élémentaire sera assigné un ensemble d'attributs (couleur, épaisseur,
transparence, remplissage, pointillé, …). Cette approche n'est évidemment adaptée qu'à des documents
"simples". Ce mode exige à chaque opération d'affichage ou d'impression des calculs plus ou moins complexes
afin de transformer l'image en en une suite de points compréhensibles par les périphériques. Retenons l'intérêt
essentiel du mode vectoriel : on ne stocke que les coordonnées des points caractéristiques d'une forme. On en tire
les avantages suivants :
-
Indépendance vis-à-vis du périphérique
Souplesse pour les modifications "spatiales" de l'image
Adéquation à certains périphériques "intelligents" (Postscript, HPGL)
Intégration aux travaux de schématique : DA
O, CAO.
Compacité des données.
Les inconvénients suivent de façon logique :
-
Inadéquation aux images numérisées (photographies digitales)
Complexité de l'outil de manipulation.
Ressources de traitement importante.
Intégrité des données à assurer de façon très rigoureuse.
Compatibilité entre les différents formats difficile à réaliser.
Replongeons nous donc sans plus attendre dans les images bitmap, centre de notre sujet.
I.4.b : Composition d'un fichier image bitmap
Globalement, un fichier bitmap peut se diviser en deux parties : un en-tête (ou header) rassemblant l'ensemble
des caractéristiques nécessaires à l'identification et au décodage de l'image. Puis viennent les données
échantillonnées proprement dites.
•
L'en-tête (header)
Que ce soit sous la forme d'un en-tête de taille fixe ou d'une description plus dynamique, le header inclut
généralement tout ou partie des informations suivantes :
-
Codage des octets (poids faible/poids fort ou inversement)
Nombre de points (lignes et colonnes)
Géométrie de l'image
Orientation des images (de haut en bas, de gauche à droite ou inversement…)
Aspect ratio (pour uniformiser l'affichage ou l'impression)
Origine de l'image
Planar/non planar (codage par 3 plans de 8 bits superposés pour un codage en 24 bits)
Profondeur du codage (8 bits, 24 bits, monochrome 12 bits, …)
LUT (table de couleurs)
Compression
Commentaires
•
Les données image (pixels)
17
Il s'agit donc du codage, point par point, de l'ensemble de l'échantillonnage. Suivant l'option choisie (planar/non
planar), la profondeur utile (8, 12 ou 24 bits) et l'éventuelle compression, on obtient un ensemble de données
plus ou moins conséquent.
I.4.b : Quelques exemples de fichiers
Il existe plus de 120 types de fichiers bitmap dont le but reste de coder une matrice carrée de pixels. Si
inévitablement de nombreuses redondances subsistent, il est raisonnable de distinguer deux ou trois grandes
classes dévolues à des utilisations spécifiques : photographie numérique, imagerie générale, dessin, …
Voici donc quelques exemples qui se révèlent être les grands standards présents actuellement.
Extension
BMP
GIF
EPS
TIFF
PCX
IFF
PICT
JPEG
DIC, DCM
Nom du format
BitMap Windows
Graphic Information Format
Encapsulated Postscript
Tagged Image File Format
Paint Brush - Zsoft
Interchange File Format
Bitmap Apple
Joint Photograph Experts Group
Dicom (ACR-NEMA)
Description
Format des images Windows Microsoft
Comprimé LZW, 8 bits, possibilité d'animation
Bitmap encapsulé dans Postscript
Nombreuses versions. 8 à 24 bits. Compression LZW
Format vieillissant...
Comprimé RLE, Gère aussi pour le son
Apple Macintosh
Photo numérique. Compression liée aux limites de l' œil
Imagerie radiologique
Dans la pratique, il est à constater que deux standards se dégagent : TIFF pour l'imagerie numérique en général
et JPEG pour la photographie numérique. Un format gadget subsiste sur le Web : GIF de Compuserve qui ne
code que 256 couleurs maximum, mais qui possède un bon taux de compression et la possibilité d'inclure dans
un même fichier plusieurs images afin de gérer de petites animations.
I.5 : Quelques logiciels
Ici aussi, on peut distinguer trois grandes familles d'outils : les logiciels de traitement d'image, incluant des outils
avancés de filtrage et d'analyse mathématique; les logiciels de retouche photo, spécifiquement destiné à la
manipulation de photographies numériques et enfin des "petits" logiciels le plus souvent dans le domaine public,
incluant des petites fonctionnalités bien pratiques.
•
Traitement d'image
-
NIH Image (MAC)
Scion Image (PC)
Media Cybernetics Image Pro Plus (PC)
•
Retouche photo
-
Adobe PhotoShop (PC-MAC)
Paint Shop Pro (PC)
Gimp (Linux)
•
Le petit + : un convertisseur de 120 formats
-
XN View (PC) :
18
http://rsb.info.nih.gov/nih-image
http://www.scioncorp.com
http://www.mediacy.com
DP
DP
http://www.adobe.com
http://www.jasc.com/
http://www.gimp.org
Cher
http://perso.wanadoo.fr/pierre.g
DP
DP
I.6 : Une petite bibliographie
Non exhaustive bien sûr…..
La Synthèse d'Images
B. Péroche, J. Argence, D. Ghazanfarpour, D. Michelucci
Traité des Nouvelles Technologies – HERMES – 1990
Précis d'Analyse d'Images
M. Coster, JL. Chermant
Presses du CNRS – 1989
Vision par Ordinateur
R. Horaud, O. Monga
Deuxième édition – Hermes
Les fichiers graphiques sur Ordinateurs
C. Lepecq, N. Rimoux
Armand Colin
Graphics and Image Processing
T. Pavlidis
Springer Verlag – 1982
Digital Image Processing
W.K. Pratt
Wiley Interscience – 1978
Digital Image Processing
R.C Gonzalez, P. Wintz
Addison-Wesley - 1987
19

Chapitre I : Imagerie Numérique, une introduction en douceur

Transcription

Documents pareils

3V623 - Bienvenue sur le site de la Licence Sciences de la Vie

estivales 2015 - Ville de Lannion

KB32394_CRM dans un env. 64bits

Estivales 2004 - Galerie Binôme

la mémoire (3 s.)

TD 1 : portes de base et minimisations de fonctions

TD-Architecture : petits problèmes - LISIC

Règlement du tir du Poisson d`Avril

Glossaire - ecol2com

Télécharger le programme - SIMS - Congres thematique de juin

++22 LLiiaaiissoonn RRSS223322 aassyynncchhrroonnee eett

Bridal_suivi plasma _Annonce_These_LIB_ED

Le poids des fichiers numériques - Bandits

Jean Salamero - UMR144 - Compartimentation et dynamique

CCTP - CNRS

version imprimable

Fondation Rothschild

TEXAS INSTRUMENTS MSP430 Microcontrollers

Mars/Avril 2011 - Electronique-ECI

36 II. La technologie numérique haute définition 1. Normes et

Cours d`Architecture Informatique (Licence Info/PC)

Lignes de conduite pour l`imagerie pour les céphalées aiguës et