Chapitre I : Imagerie Numérique, une introduction en douceur
Transcription
Chapitre I : Imagerie Numérique, une introduction en douceur
Imagerie Numérique : Introduction en douceur Chapitre I : Imagerie Numérique, une introduction en douceur L'image est un des supports physiques les plus privilégiés pour transmettre un message à notre cerveau. Avant de nous intéresser à l'image numérique en tant que telle, nous allons tout d'abord aborder – de façon très succincte – l'image dans son aspect le plus perceptif, c'est à dire du point de vue de notre perception visuelle et du décodage mental que nous y associons. I.1 – Comment percevons-nous les images ? Les mécanismes de transmission, de décodage et de synthèse du message visuel par le système nerveux sont extrêmement complexes. Sans nous perdre dans les détails de la théorie - encore largement incomplète – du comportement du système visuel, nous admettrons que le traitement de l'information "Image" se distingue en deux procédures qui correspondraient à un comportement passif pour la première et à un comportement actif pour la seconde. I.1.a : Le comportement passif du système visuel Ce comportement est lié aux deux notions détection et perception, associées à l'aspect le plus physique du système visuel. Les caractéristiques de l'image qui en dépendent sont sa dimension, sa résolution, sa luminosité, son contraste. Des expériences de psychophysique permettent d'étudier la réponse du système visuel suivant les variations (petites ou grandes) du signal : • L'étude des répondes relatives à de petites variations est assez simple : on se pose la question de savoir si elles sont au-dessus ou en dessous du seuil de détection du système visuel. La perception de cette variation du signal induira une réponse oui ou non, assez objective. • Dans les expériences de perception où les variations du signal sont très grandes, le problème est plus délicat, comme peut l'illustrer l'exemple suivant : Comment procéder pour fabriquer une échelle de tons gris allant du blanc au noir et dont les écarts de luminosité vont paraître le plus homogène possible, d'un point de vue perceptif, bien sur. Le processus intellectuel qui doit alors être mis en place et largement plus complexe qu'une réponse "vu-pas vu". Il faudra entre autres définir des critères de jugement qui permettront après entraînement de mieux sélectionner les niveaux de gris. Nous nous situons donc à un niveau plus subjectif, notamment dépendant des conditions globales de l'opération : la figure 1.1 illustre cette importance en montrant que la luminosité du fond modifie déjà sérieusement la sensation que procure une échelle de gris déterminée. 1 Imagerie Numérique : Introduction en douceur Figure 1.1 : L'importance de la luminosité du fond Le comportement passif du système visuel s'explique globalement par le fait que c'est un système essentiellement biophysique. Ses propriétés découlent des caractéristiques de sa structure, à commencer par l'œil et la rétine pour finir avec l'immense complexité de ses connexions nerveuses. Ce comportement peut donner lieu à quelques phénomènes particulièrement démonstratifs comme ceux de la figure 1.2, dû aux interactions spatiales entre les régions de l'image ayant des luminosités différentes. Ces exemples indiquent à quel point l'information image, une fois prise en charge par le système visuel, peut être rapidement transformée et déformée. En (a), les phénomènes trouvent leur origine au niveau des interconnexions nerveuses des cellules rétiniennes qui effectuent un véritable filtrage linéaire. Mais dès qu'intervient un contour (b et c) des phénomènes nonlinéaires peuvent se produire. Les contours, dans certains cas peuvent procurer des résultats assez spectaculaires. Leur explication n'est pas aussi claire que dans le cas (a) mais se situerait cependant au niveau de la structure neurophysiologique des voies visuelles, où des cellules extrêmement spécialisées dans le traitement des contours ont été découvertes. Mais il existe des illusions notamment sur la dimension des formes (d) pour lesquelles on est plus en mesure de donner une explication d'ordre neurophysiologique. Elles correspondraient à des processus mentaux beaucoup plus complexes. Le système visuel ne jouerait plus alors dans ce cas un rôle aussi passif. 2 Imagerie Numérique : Introduction en douceur (a) l'illusion de Hermann : le centre des croisements de la grille blanche (inversement noire) paraît plus sombre (inversement claire) excepté celui où l'on fixe le regard : la partie centrale de la rétine ne traite pas l'image de la même manière que sa partie périphérique. (b) Les contours, vrais ou faux (image de gauche) , jouent par leur orientation un rôle primordial dans certains effets. A droite, l'illusion de Zöllner et une de ses variantes : Les verticales dans l'image de gauche et les horizontales dans l'image de droite sont en fait des parallèles. (c) La fausse spirale de Frazier et sa variante sont en fait composées de cercles concentriques (d) Illusion de Tichener et variante : les cercles centraux sont de tailles identiques tout comme les deux segments horizontaux Figure 1.2 : Phénomènes dus aux interactions spatiales dans l'image 3 Imagerie Numérique : Introduction en douceur I.1.b : Le comportement actif du système visuel Le rôle actif du système visuel se situe essentiellement au niveau des aires supérieures du cerveau où l'information image arrive après une série de transformations et de codages que nous n'avons fait qu'entrevoir. L'information y est alors rassemblée et synthétisée par des opérations mentales très nombreuses mais encore inconnues. Ces opérations pilotent alors le processus d'interprétation de l'information visuelle. Cette interprétation peut être radicalement influencée par le contexte spatial et la perspective. La figure 1.3 que selon ce contexte, la forme élémentaire trapézoïdale peut être perçue en position debout ou allongée. Figure 1.3 : La perception d'une forme est modifiée selon le contexte spatial où elle est située La présence d'éléments de perspective ou de gradients de texture donne en effet de fortes indications sur les distances relatives des objets et permet à l'observateur de mieux structurer l'espace qu'il regarde. La figure 1.4 illustre ce processus où des déformations planes sont finalement interprétées comme des volumes cachés sous un damier régulier. Figure 1.4 : Rôle des gradients de texture dans "Arlequin" et "Véga" de Vasarely Ces indications peuvent aussi agir sur des mécanismes mentaux particuliers comme celui de la constance de la taille et provoquer de fortes illusions géométriques. L'exemple de la figure 1.5 présente 3 motifs identiques et dont les images rétiniennes ont par conséquent la même taille. Ces exemples soulignent le caractère actif avec lequel le cerveau reconstruit l'information image mais n'indiquent pas la manière avec laquelle il procède pour y parvenir. Comment faisons-nous pour reconnaître les formes, analyser les scènes ? Actuellement, ces questions n'ont pas encore trouvé de réponses satisfaisantes. 4 Imagerie Numérique : Introduction en douceur Figure 1.5 : Illusion géométrique sur la taille provoquée par la perspective Quelques approches par le biais de la théorie de l'information ont été tentées mais semblent être restées jusqu'ici stériles. En fait, une constatation toute simple permet de montrer combien il est difficile d'attaquer le problème de cette manière. La figure 1.6 représente la même photographie en positif et en négatif. Malgré le fait qu'un positif et un négatif contiennent au signe près la même quantité d'information, il est extrêmement difficile de reconnaître une personne sur un négatif sans entraînement préalable. Figure 1.6 : Négatif et positif d'une même personne. L'approche par les gestaltistes, très différente a donné de meilleurs résultats. Pour eux, la perception des signes, des objets ne s'expliquerait pas par un processus de concaténation ou de sommation en série de leurs différentes parties. Ils seraient perçus comme un tout. Considérons les trois segments de la figure 1.7 : lorsqu'ils finissent par se rapprocher suffisamment pour se rejoindre, ils forment une figure triangulaire que l'on perçoit en soi plutôt que comme le résultat de ce rapprochement. Figure 1.7 : Le triangle est perçu comme une unité graphique en soi Cette construction suivrait un certain nombre de lois de perception qui sont illustrées sur la figure 1.8 : 5 Imagerie Numérique : Introduction en douceur Loi de similitude : on regroupe les zones ayant des "caractéristiques" similaires Loi de continuité : au lieu de percevoir 3 formes côte à côte, on préfère voir une ligne courbe et une ligne rectangulaire superposée Loi de proximité : on structure l'information en sous-ensembles d'éléments les plus proches possibles les uns des autres Loi de fermeture : on perçoit deux formes fermées se touchant en un point plutôt que deux courbes quelconques se croisant Le fait qu'on perçoive deux trames de carrés imbriquées plutôt que la simple juxtaposition de l'élément de droite est une conséquence de ces lois. Figure 1.8 : Lois de perception d'après les gestaltistes Ces lois pousseraient à croire qu'il existe une sorte de principe de simplicité qui dirigerait le cerveau et lui permettrait de limiter au maximum ses efforts pour reconstruire l'information. C'est une idée un peu naïve, mais prenons par exemple le cas des surfaces subjectives de la figure 1.9. Le triangle blanc à droite n'a pas de contour réel pourtant on le perçoit très vivement. Il paraît même être plus lumineux que le fond. Or, qu'y a t-il dans cette image ? Trois angles et trois disques tronqués. Ces formes paraissent incomplètes au cerveau. Il lui suffit alors de faire l'hypothèse supplémentaire de la présence d'un triangle blanc recouvrant ces formes pour que l'image s'organise plus simplement. 6 Imagerie Numérique : Introduction en douceur Figure 1.9 : Deux triangles subjectifs qui n'ont pas de contour (d'après G. Kanizsa, Scientific American, avril 1976) On peut donc constater que le cerveau ne se contente pas de percevoir ce qui existe dans le signal. Il n'hésite pas à le compléter si cela l'arrange, c'est à dire si cela lui permet de faire son travail à moindre frais. Ce que le cerveau rajoute au signal pour effectuer ces opérations constructives dépend bien sûr de l'image mais aussi de la mémoire. Plus la mémoire pourra apporter d'éléments significatifs pour comprendre l'image regardée et moins on aura besoin de signal pour percevoir l'information. Il est des cas où le cerveau peut construire pour une image donnée plusieurs solutions distinctes. Ces solutions s'excluent mutuellement car on n'en perçoit que l'une des deux et le passage de l'une à l'autre demande un important effort intellectuel. La figure 1.10 présente deux exemples célèbres de ces figures ambiguës. Figure 1.10 : Exemples de figures ambiguës : femme jeune/vieille de R. Leeper et vase/visages Certains reconnaîtront une vieille femme et d'autres une jeune femme fort élégante. Pourquoi ? De nombreux facteurs psychologiques interviennent et la mémoire joue encore ici un rôle prépondérant surtout si on la stimule sélectivement, par exemple en racontant au préalable des histoires de vieille rombière ou au contraire des contes romantiques. Inversement, avec les images en fausse perspective, le cerveau ne parvient pas à construire de solution cohérente, ce qui provoque même une certaine gêne mentale. La figure 1.11 présente deux exemples célèbres : le fameux "trident impossible" dont on ne sait s'il a deux ou trois dents et le classique "escalier de Penrose" qui n'en finit pas de descendre (ou de monter). Figure 1.11 : Fausses perspectives : Trident impossible et escalier de Penrose 7 Imagerie Numérique : Introduction en douceur A la figure 1.12, cette gêne diminue et même disparaît car il faut réfléchir pour s'apercevoir que la chute d'eau ne semble que descendre. Cette lithographie de M.C. Escher, qui reste un maître du genre, est basée sur la double utilisation du triangle impossible qui est la fausse perspective d'un objet illusoire tri-dimensionnel : un triangle à trois angles droits ! On retrouve également sur cette figure une autre lithographie célèbre de Escher portant sur les fausses perspectives : Belvédère. Figure 1.12 : La chute d'eau de M.C. Escher (Mouvement perpétuel), le triangle impossible et Belvédère C'est le caractère réaliste de ce tableau, avec sa multitude de petits détails qui permet au cerveau de s'affranchir de cette construction impossible. Nous terminerons en signalant que le rôle actif du système visuel se manifeste aussi au niveau de l'analyse physique de l'image, c'est à dire dans la composante dynamique du regard. Sans que nous en ayons réellement conscience, nos yeux bougent beaucoup, et pas n'importe comment, lorsque l'on observe une scène. Yarbus a enregistré ce type de mouvement en analysant les déplacement de la rétine. Le résultat est spectaculaire… et parfois troublant. Nous nous tourmentons cependant pas trop. Après avoir lu ces lignes, nous aurons oublié que notre système visuel joue un rôle passif et actif et nous continuerons à lire ces lignes ou regarder autour de nous comme si de rien n'était. Mais au fait, pour regarder ou lire, il faut distinguer de la lumière et des couleurs. Nous allons donc retrouver la composante passive du système visuel en étudiant ou rappelant les bases essentielles de la théorie de la couleur. I.2 - De la lumière aux couleurs La couleur joue évidemment un rôle fondamental en informatique graphique et de façon générale en théorie de la vision. Ce paragraphe rappelle donc quelques notions physiques sur la lumière et la couleur pour exposer par la suite la moyens théoriques et numériques de coder une couleur. Plusieurs systèmes permettent de décrire les couleurs. Nous en présenterons cinq en précisant leurs avantages et inconvénients respectifs. I.2.a: Au départ est la lumière La lumière visible est une énergie électromagnétique qui possède une distribution spectrale d'énergie. La lumière visible est la zone du spectre comprise entre les longueurs d'onde 380 et 770 nanomètres (zone qui s'étend du violet au rouge, en passant par l'indigo, le bleu, le vert, le jaune et l'orange). Il est visualisé sur la figure 1.13. Le spectre invisible est, quant à lui, constitué par les rayons gamma, X, ultraviolets, infrarouges et les ondes de radiofréquence. Nous connaissons tous le spectre de la lumière visible difracté par le prisme magique des gouttes d'eau lors d'un orage. 8 Imagerie Numérique : Introduction en douceur Figure 1.13 : L'arc-en-ciel : spectre de la lumière visible On appelle lumière monochromatique une lumière dont le spectre a une largeur de bande de 1 nanomètre. On a montré - expérimentalement – que l'on pouvait reconstituer toute lumière visible à partir de trois lumières monochromatiques bien choisies. En particulier, il ne faut pas qu'une lumière monochromatique puisse être obtenue à partir des deux autres. Les trois couleurs ainsi choisies sont appelées couleurs primaires. Cette expérience est connue sous le nom d'Expérience de Meye. I.2.b: La colorimétrie La perception de la couleur est purement psycho-physiologique. En particulier, deux couleurs de même longueur d'onde ne provoquent pas forcément la même sensation sur le système " œil-cerveau" de deux individus différents. Il existe à l'heure actuelle plusieurs théories justifiant le fonctionnement de ce système. La plus connue postule l'existence de trois types de cônes sensibles respectivement au rouge, au vert et au bleu dans la rétine de l'œil humain (figure 1.14). Figure 1.14 : L' œil humain et les cellules sensibles à la lumière (cônes et bâtonnets) La description d'une couleur est une problématique complexe. On citera pour mémoire les travaux de la Commission Internationale de l'Energie (CIE) qui proposa en 1931 un modèle peu intuitif basé sur l'étude de la distribution spectrale de l'énergie lumineuse et la détermination de valeurs de trichromacité. Nous préfèrerons donc introduire le modèle de Munsell, datant quant à lui de 1946, définissant une couleur par : - - - sa teinte, qui est la notion utilisée pour distinguer les couleurs telles que rouge, vert, jaune… Cette notion correspond en fait à celle de la longueur d'onde dominante de la distribution spectrale de la couleur. sa saturation qui permet de mesurer la proportion de couleur pure par rapport au blanc. Cette notion permet de distinguer le rose du rouge, le bleu ciel du bleu outremer… Elle est liée à la largeur de bande du spectre de la couleur. sa luminance qui est liée à la notion achromatique d'intensité d'excitation visuelle, et qui est un facteur indépendant de la teinte et de la saturation. Remarque : l'œil humain est capable de distinguer environ 350 000 couleurs. Plus précisément, si on ne considère que des teintes pures, environ 128 teintes peuvent êtres distinguées. Enfin, 128 niveaux d'intensité paraissent suffisants pour que l'œil humain ne distingue pas de zonages dans une image "noir et blanc". 9 Imagerie Numérique : Introduction en douceur La colorimétrie - ou science de la couleur – définit trois teintes fondamentales appelées primitives additives : le rouge, le vert et le bleu qui, mélangées, donnent le blanc. En mélangeant deux de ces trois primitives, on obtient la couleur complémentaire de la troisième primitive (deux couleurs sont complémentaires si leur mélange donnent du blanc). Ainsi : - Bleu + Vert = Cyan (ou Turquoise) - Rouge + Vert = Jaune - Rouge + Bleu = Magenta (ou Pourpre) Ceci peut se traduire également en soustrayant une couleur d'une autre pour en obtenir une troisième : - Blanc – Bleu = Jaune - Blanc – Vert = Magenta - Blanc – Rouge = Cyan C'est la raison pour laquelle les trois couleurs Cyan, Magenta et Jaune sont appelées les primitives soustractives. La figure 1.15 illustre ces combinaisons. Figure 1.15 : Synthèse de couleurs en colorimétrie Cette distinction entre primitives additives et soustractives est importante dans la pratique de l'imagerie numérique. En effet, les couleurs sur un écran à balayage s'obtiennent par synthèse additive, par juxtaposition de triplets luminophores, où l'un émet dans le rouge, l'autre dans le bleu et le troisième dans le vert. Par contre, pour la reproduction d'écran par une imprimante couleur, une couleur déjà imprimée joue le rôle d'un filtre absorbant la couleur complémentaire de celle du filtre. I.2.c : Les systèmes de couleur La recherche de moyens pour désigner les couleurs dans le domaine de l'infographie a permis la définition de quelques modèles de représentation des couleurs. Les modèles RVB, CMJ, et YIQ font l'objet du paragraphe ciaprès. Ils constituent une approche orientée vers le matériel et sont faciles à implanter sur une machine. Par contre, il ne sont pas d'une utilisation très simple, car ils ne correspondent pas à l'intuition des couleurs du système œil-cerveau de l'homme. D'autres modèles sont basés sur la perception subjective. Ils ont été introduits pour modéliser les qualités intuitives ou psychophysiologiques des couleurs. Si on ne dispose que d'un nombre limité de couleurs, l'usage des termes du vocabulaire courant suffit pour désigner celles-ci. Ainsi, un système baptisé CNS (Color Naming System) a été introduit en 1986 par Kaufman pour spécifier les couleurs. Basé sur la langue anglaise, il permet de décrire les couleurs avec des règles syntaxiques strictes. Cependant, comme sur les machines actuelles on peut disposer de plusieurs millions de couleurs, on utilise la plupart du temps des systèmes numériques. Deux d'entres eux, les sytèmes TSI et TSL, sont présentés ici. 10 Imagerie Numérique : Introduction en douceur • Le modèle RVB (Rouge, Vert, Bleu) Ce modèle utilise un système de coordonnées cartésiennes et définit un cube unité comme indiqué sur la figure 1.16. Chaque axe correspond à une couleur primaire : rouge, vert, bleu. Une couleur est donc spécifiée en indiquant les contributions de chaque couleur primaire. Ces couleurs sont additives, c'est-à-dire que les contributions de chaque primaire sont ajoutées pour créer le résultat. Bleu Cyan Magenta Blanc Vert Noir Rouge Jaune Figure 1.16: Le "cube" des couleurs dans le système RVB • Le modèle CMJ (Cyan, Magenta, Jaune) Ce modèle utilise – comme RVB – un cube unité d'un système de coordonnées cartésiennes. Mais ici, ce sont les couleurs cyan, magenta et jaunes (complémentaires de rouge, vert, bleu respectivement) qui sont représentées. Certaines imprimantes à jet d'encre l'emploient. • Le modèle YIQ Ce modèle a été adopté pour la transmission des signaux de télévision. YIQ est un recodage de RVB établi par le National Television Standards Committee (NTSC) en 1953 afin de rendre plus efficace la transmission du signal et la compatibilité avec les écrans de télévision noir et blanc. Ce modèle est un sous-espace de l'espace cartésien constitué du polyèdre convexe envoyé sur le cube RVB à l'aide de la transformation : Y 0,30 0,59 0,11R = V I 0,60 − 0,28 − 0,32 Q 0,21 −0,52 0,31B Il est à noter que dans ce modèle, la composante Y = 0,30.R + 0,59.V + 0,11.B correspond au niveau de gris qui serait affiché sur un écran monochrome (noir et blanc) à partir de la couleur de composantes RVB. Il s'agit de la luminance. • Le modèle TSL (Teinte, Saturation, Luminance) Ce modèle, dû à Smith en 1978, est fondé sur l'expérience intuitive de la perception de la couleur et utilise des notions de teinte, saturation et luminance. Il est défini par un espace en forme d'hexagone (Figure 1.17) dont l'axe de symétrie est l'axe de la luminance. La base de l'hexagone correspond à L=1 et contient donc toutes les couleurs d'intensité maximale. La teinte T est mesurée par l'angle, en degrés, autour de l'axe vertical duquel il faut tourner, le rouge étant à 0°, pour atteindre la couleur spécifiée. Enfin, la saturation varie de 0 à 1, de l'axe du cône aux côtés de l'hexagone. 11 Imagerie Numérique : Introduction en douceur 1 T S L 0 Figure 1.17 : Le système de couleurs TSL Les valeurs intermédiaires de l'axe représentent les niveaux de gris. Le plan supérieur du cône correspond à ce que l'on voit en regardant le cube RVB suivant la direction de la diagonale principale, le blanc étant visible. • Le modèle TSI (Teinte, saturation Intensité) Ce modèle, basé sur les travaux de Ostwald, forme un sous-espace en forme de double-cône (Figure 1.18). La teinte est définie par l'angle autour de l'axe vertical du double-cône. Les couleurs apparaissent dans l'ordre rouge, jaune, vert, cyan, bleu et magenta. La saturation est mesurée radialement à partir de l'axe et varie de 0 à 1. L'intensité varie de 0 (noir) à 1 (blanc). 1 T I S 0 Figure 1.18 : Le modèle TSI I.2.d : Le codage numérique des couleurs L'application du modèle RVB au codage informatique des couleurs impose de gérer chacune des composantes en rouge, vert et bleu. Rappelons donc que dans ce modèle, une couleur c est définie par la synthèse additive suivante : c = r.R + v.V + b.B avec r,v,b pris dans l'intervalle [0,1] Remarquons qu'avec ce formalisme, le noir est représenté par le triplet (0,0,0) tandis que le blanc est représenté par le triplet (1,1,1). 12 Imagerie Numérique : Introduction en douceur Le passage – obligé – du continu au discret nécessite la mise en place d'une échelle de valeurs. Il a été choisi d'autoriser pour chacune des trois composantes 256 valeurs possibles. Chaque composante est alors codée sur 8 bits, c'est à dire un octet. Une couleurs est donc codée sur 3 octets, c'est à dire 24 bits. Le nombre de couleurs ainsi codées est de 2563 soit 16 777 216 couleurs différentes. Ce nombre est à ramener au postulat de 350 000 couleurs distinguables par l'œil humain. Dans ce codage, une couleur monochrome est parfaitement équilibrée en rouge, vert et bleu (diagonale principale du cube RVB). On a donc 256 niveaux de gris distincts codables et affichables par le système informatique. Si on se rappelle de nouveau que 128 niveaux d'intensités suffisent pour que l'œil ne distingue pas d'ombrage dans une image noir et blanc, on admettra que ce codage 24 bits est largement suffisant. 8 bits 8 bits 8 bits 256 valeurs 256 valeurs 256 valeurs Figure 1.19 : Le modèle RVB codé sur 24 bits Il est intéressant de noter que certains systèmes permettent de coder une composante supplémentaire, le plus souvent assimilée à un facteur de transparence α, lui même codé sur 8 bits. Le système de codage est alors libellé "32 bits" et de fait, s'avère plus gourmand en mémoire vidéo. La mémoire vidéo est l'emplacement réservé au stockage des informations relatives à l'affichage. Il s'agit d'une mémoire volatile, le plus souvent intégré au composant vidéo qui se présente sous la forme d'une puce (chipset) ou d'une carte d'extension (carte vidéo). A titre d'information, il est intéressant de souligner qu'en terme d'affichage d'une image, on obtient, sur des systèmes vidéo 24 bits, les exigences suivantes : Dénomination VGA SVGA XGA Matrice vidéo 640 x 480 800 x 600 1024 x 768 Nombre de points 307200 480 000 786 432 Mémoire vidéo nécessaire 921 600 octets 1 440 000 octets 2 359 296 octets Certains appareillages, notamment en imagerie médicale, se démarquent d'une approche "photographique" de l'imagerie telle que nous la concevons depuis le début de ce chapitre. L'image générée est en fait la visualisation d'une acquisition liée à une technologie précise. La dynamique de couleurs utilisée – le plus souvent monochromes – peut être alors plus étendue. C'est ainsi qu'un grand nombre de ces appareillages autorisent un codage de l'image suivant une seule composante : une luminance codée sur 12 bits et permettant la détermination de 4096 niveaux de gris différents. Cette plage dépassant largement la plage utile des 128 niveaux discernables par l'œil humain. Nous reviendrons sur ce type de codage et ses modalités d'utilisation. I.2.e : Les tables de couleurs Un inconvénient du système de codage sur 24 bits est son exigence en mémoire. De plus, il n'y a pas de notion d'ordre dans les couleurs et dans le cas d'images monochromes ou non photographiques, on aimerait pouvoir disposer d'un système plus compact, plus rapide à utiliser et plus intuitif dans son interprétation. Les tables de couleurs répondent à cette triple exigence. les valeurs codées sur p bits dans la mémoire ne représente plus le codage d'une couleur en RVB mais l'adresse dans une table. L'élément correspondant de la table contiendra quant à lui une information sur la couleur, qui sera codée sur b bits (b>p). De façon générale, on utilise des tables indexées sur 8 bits, c'est à dire codant 256 couleurs parmi les 16 777 216 du système 24 bits (p=8, b =24). A chaque index i de la table est donc associé un triplet d'octets codant la couleur en rouge, vert et bleu. Remarque : Les tables monochromes codées sur 12 bits (4096 niveaux de gris) sont à classer à part car le système RVB 24 bits ne permet pas de gérer une dynamique aussi importante en niveaux de gris. 13 Imagerie Numérique : Introduction en douceur I.3 – Acquisition et numérisation I.3.a : Echantillonnage L'opération d'échantillonnage est l'une des premières que l'on fait lors de l'acquisition d'une image. Elle permet de convertir le signal continu issu du capteur en un signal discret. Elle utilise donc la totalité des résultats de la théorie de l'échantillonnage ou théorie de Shannon, datant de 1948. Ces résultats sont essentiellement résumés par le théorème suivant : Un signal continu, de bande passante limitée, est équivalent à un ensemble discret d'échantillons mesurés sur ce signal à intervalles suffisamment serrés (fréquence d'échantillonnage au moins supérieure à 2 fois la fréquence maximale). Ce théorème s'étend immédiatement à deux dimensions : on remplace les fréquences temporelles usuellement utilisées en traitement du signal par des fréquences spatiales qui caractérisent les variations dans les images. Le point élémentaire d'une image échantillonnée est communément appelé pixel (PIcture ELement). En pratique, pour une image en niveaux de gris codée avec un octet par pixel (256 niveaux) il faut trouver la fréquence maximale du spectre de ce signal bidimensionnel et appliquer le théorème de Shannon : Le long d'une ligne (ou d'une colonne) deux pixels voisins peuvent différer au plus de 255 ; avec pSize la taille du pixel, la fréquence maximale du signal L se calcule de la façon suivante : L(i,j)=0 ; L(i,j+1)=255; L(i,j+2)=0 et donc Fmax_ligne = 1/2 cycle / pSize Cependant, en traitement d'image, on rencontre généralement trois types de problèmes qui interdisent de se replacer dans le cas d'école énoncé ci-dessus : • • • Les scènes réelles observées ne sont jamais à bande passante limitée. Il n'est pas possible d'observer les scènes de moins l'infini à plus l'infini. Enfin, il n'est généralement pas possible de faire des mesures ponctuelles de l'énergie lumineuse. Ces trois limitations entraînent les conséquences suivantes : • • Il est nécessaire de filtrer les hautes fréquences du signal, soit de façon optique (diaphragme, mise au point), soit de façon électronique, soit de façon mécanique (fenêtre d'analyse). Il demeure parfois des repliements de spectre (défaut d'aliasing) particulièrement sensibles lors des modifications géométriques des images. Ces modifications du signal à traiter sont particulièrement sensibles en traitement numériques des images. En effet, le nombre des signaux à traiter est généralement très élevé et la dépendance quadratique entre le pas d'échantillonnage et ce nombre pousse à échantillonner à des fréquences très proche du théorème de Shannon. Par ailleurs, en traitement de l'image, on dispose du choix du réseau d'échantillonnage, c'est à dire de son pas et de son motif. On montre d'un échantillonnage sur un maillage hexagonal est plus performant qu'un échantillonnage sur une maille carrée si l'image à traiter possède un spectre isotrope. Ce gain se paye par une complexité accrue de la représentation de l'image (Figure 1.20). En effet, on constate que les relations de voisinage entre les pixels deviennent plus complexes dans un maillage hexagonal. Figure 1.20 : Exemples de maillages carré et hexagonal 14 Imagerie Numérique : Introduction en douceur I.3.b : Quantification et codage La quantification des signaux d'image a pour objectif de remplacer les niveaux continus en des niveaux discrets, généralement en nombre réduit (256, par exemple pour un codage sur 8 bits). Elle se fait selon les critères classiques de la théorie de la quantification, qui permet de définir pour un signal donné les seuils de décision et les niveaux de représentation propres au codeur. Les statistiques des niveaux de gris d'une image quantifiée se représentent alors par un histogramme indiquant le pourcentage des pixels correspondant à chacun des niveaux de quantification. Si l'on souhaite minimiser l'erreur quadratique moyenne de quantification pour un nombre de bits fixé, la méthode Max permet de déterminer le quantificateur optimal comme une fonction de l'histogramme de l'image. Certains quantificateurs, plus liés à un problème donné, prennent également en compte d'autres erreurs, comme les erreurs de transmission par exemple. Le codage des images est une étape primordiale, qui a pour but de réduire le volume des informations transmises. Une analyse statistique fine permet de conclure qu'une image codée sur 8 bits peut généralement être ramenée à un message codé sur 4 bits par pixel, simplement en tirant profit des redondances statistiques du signal. Si l'on souhaite descendre à des débits plus faibles, il convient de mettre en œuvre des codages avec perte d'information. On a beaucoup étudié des codeurs qui utilisaient les tolérances du système visuel humain pour perdre l'information aux endroits où elle gène peu l'observateur. Trois grandes familles de codeurs ont ainsi été crées : • • • Les codeurs par prédiction Les codeurs par transformation orthogonale Les codeurs par blocs I.3.c : Quelques exemples de périphériques d'acquisition Il est illusoire de vouloir dresser ici un inventaire exhaustif des technologie d'acquisition d'image. Nous en ferons donc ici un survol illustratif. • La photographie numérique : Elle intègre dans un même appareil le dispositif optique de prise de vue et l'électronique de numérisation. Les appareils entièrement numériques sont basés sur la technologie CCD que l'on retrouve dans les caméras vidéo. • La vidéo numérique : Les cartes de numérisation vidéo offrent une grande variété de possibilités qui sont liées à l'origine du signal vidéo et au standard utilisé (PAL, SECAM, NTSC). La qualité de l'image dépend en particulier du type de signal d'entrée analogique. On distingue : - les signaux primaires en Rouge, Vert, Bleu, les signaux séparant la luminance [Y] de l'information contenant la couleur (chrominance) [C], signaux dits à composantes, les signaux composites où luminance et chrominance sont codées sur un signal unique. La résolution des images vidéo dépend du nombre de lignes permettant le balayage d'une image complète. Elle est de 625 lignes pour les normes PAL et SECAM, dont seulement 575 sont visualisées. Pour accélérer l'affichage, le balayage est entrelacé : la première trame correspond aux lignes impaires (1/50 ème de seconde), la deuxième trame aux lignes paires. Une image est donc rafraîchie tous les 1/25 seconde. La numérisation en temps réel suppose que l'opération puisse être effectuée en 1/25 seconde, ce qui impose pour un débit de 200 Ko/s de comprimer fortement les données et de réduire la taille de l'image (320 x 200) pour respecter la cadence de 25 images par seconde. Dans le domaine du multimédia, de gros progrès ont été réalisés récemment pour fournir des séquences vidéo numérisées très compactes. Les cartes de compression à la norme MPEG, le standard émergeant pour la vidéo numérique, ne sont 15 Imagerie Numérique : Introduction en douceur cependant pas encore à la portée des utilisateurs non professionnels ou occasionnels ; par contre la décompression MPEG, éventuellement par logiciel, est tout à fait accessible • Les numériseurs d'image (scanners à plats, scanners à diapositives) : Un scanner est un dispositif à balayage qui analyse point par point la lumière réfléchie par un document. A partir d'un document photographique en couleurs, la numérisation avec un scanner produit en général un triplet de valeurs numériques pour chaque pixel, triplet dont la signification dépend du modèle de représentation de la lumière choisi. On caractérise les scanners par: - leur résolution en points par pouce (ppp) [dpi]. Une résolution de 300 ppp correspond à un pixel de 0.085 mm de côté. leur dynamique. Le nombre de niveaux de quantification varie de 2 (noir ou blanc des dessins `au trait') à 256 ou plus par composante colorée. - leur domaine spectral. Les scanners couleur analysent le document dans trois bandes de fréquence correspondant globalement au rouge, vert et bleu. Les scanners noir et blanc analysent globalement l'ensemble du spectre visible (luminance), avec cependant une sensibilité différente de celle de l' œil, l'image numérisée ne correspondant pas toujours à la perception du document par l'utilisateur, ce que certains logiciels peuvent corriger (gammacorrection). • L'imagerie médicale : La médecine nucléaire (scintigraphie), l'échographie, l'angiographie numérisée, l'imagerie par résonance magnétique et la tomodensitométrie X sont quelques exemples des technologies d'imagerie médicale, possédant des champs d'application spécifiques et fournissant la plupart du temps des images monochromes, selon une dynamique plus ou moins importante de niveaux de gris. • La microscopie électronique I.4 : Enregistrement de l'image numérique I.4.a : Bitmap vs Vectoriel L'enregistrement des images numériques sur des supports informatiques (magnétiques ou optiques) nous plonge dans le vaste univers des formats de fichiers graphiques. De façon très générale, on distingue deux types de fichiers d'images représentant deux approches différentes de la représentation d'une scène : une approche de type échantillonnage (point par point ou bitmap) et une approche plus descriptive dénommée vectorielle. • L'approche bitmap Il s'agit du transcodage de l'échantillonnage réalisé à partir de l'image analogique. Ce système de codage, finalement assez universel, consiste à décomposer le document en un certain nombre de points élémentaires caractérisés par leur coordonnées spatiales et leur couleur. La "grille" d'échantillonnage est donc rectangulaire et caractérisée par un nombre de lignes et un nombre de colonnes. Les avantages de cette technique sont assez intuitifs à énoncer : - Adéquation aux périphériques Adéquation aux images complexes Adéquation au traitement d'image Compatibilité aisée entre les différents formats Intégrité des données dans un fichier Naturellement, les inconvénients des images bitmap en sont les conséquences : 16 Imagerie Numérique : Introduction en douceur - Résolution fixe Modifications spatiales difficiles Puissance de traitement importante à fournir Encombrement • L'approche vectorielle Cette approche tend à coder une description géométrique de l'image. Ce système est directement dérivé de la CAO et on travaille alors sur des "objets". Le document numérisé prend alors la forme d'une suite de formules mathématiques décrivant les formes élémentaires constituant l'image (rectangles, ellipses, lignes, splines, courbes de Bezier). A chaque forme élémentaire sera assigné un ensemble d'attributs (couleur, épaisseur, transparence, remplissage, pointillé, …). Cette approche n'est évidemment adaptée qu'à des documents "simples". Ce mode exige à chaque opération d'affichage ou d'impression des calculs plus ou moins complexes afin de transformer l'image en en une suite de points compréhensibles par les périphériques. Retenons l'intérêt essentiel du mode vectoriel : on ne stocke que les coordonnées des points caractéristiques d'une forme. On en tire les avantages suivants : - Indépendance vis-à-vis du périphérique Souplesse pour les modifications "spatiales" de l'image Adéquation à certains périphériques "intelligents" (Postscript, HPGL) Intégration aux travaux de schématique : DA O, CAO. Compacité des données. Les inconvénients suivent de façon logique : - Inadéquation aux images numérisées (photographies digitales) Complexité de l'outil de manipulation. Ressources de traitement importante. Intégrité des données à assurer de façon très rigoureuse. Compatibilité entre les différents formats difficile à réaliser. Replongeons nous donc sans plus attendre dans les images bitmap, centre de notre sujet. I.4.b : Composition d'un fichier image bitmap Globalement, un fichier bitmap peut se diviser en deux parties : un en-tête (ou header) rassemblant l'ensemble des caractéristiques nécessaires à l'identification et au décodage de l'image. Puis viennent les données échantillonnées proprement dites. • L'en-tête (header) Que ce soit sous la forme d'un en-tête de taille fixe ou d'une description plus dynamique, le header inclut généralement tout ou partie des informations suivantes : - Codage des octets (poids faible/poids fort ou inversement) Nombre de points (lignes et colonnes) Géométrie de l'image Orientation des images (de haut en bas, de gauche à droite ou inversement…) Aspect ratio (pour uniformiser l'affichage ou l'impression) Origine de l'image Planar/non planar (codage par 3 plans de 8 bits superposés pour un codage en 24 bits) Profondeur du codage (8 bits, 24 bits, monochrome 12 bits, …) LUT (table de couleurs) Compression Commentaires • Les données image (pixels) 17 Imagerie Numérique : Introduction en douceur Il s'agit donc du codage, point par point, de l'ensemble de l'échantillonnage. Suivant l'option choisie (planar/non planar), la profondeur utile (8, 12 ou 24 bits) et l'éventuelle compression, on obtient un ensemble de données plus ou moins conséquent. I.4.b : Quelques exemples de fichiers Il existe plus de 120 types de fichiers bitmap dont le but reste de coder une matrice carrée de pixels. Si inévitablement de nombreuses redondances subsistent, il est raisonnable de distinguer deux ou trois grandes classes dévolues à des utilisations spécifiques : photographie numérique, imagerie générale, dessin, … Voici donc quelques exemples qui se révèlent être les grands standards présents actuellement. Extension BMP GIF EPS TIFF PCX IFF PICT JPEG DIC, DCM Nom du format BitMap Windows Graphic Information Format Encapsulated Postscript Tagged Image File Format Paint Brush - Zsoft Interchange File Format Bitmap Apple Joint Photograph Experts Group Dicom (ACR-NEMA) Description Format des images Windows Microsoft Comprimé LZW, 8 bits, possibilité d'animation Bitmap encapsulé dans Postscript Nombreuses versions. 8 à 24 bits. Compression LZW Format vieillissant... Comprimé RLE, Gère aussi pour le son Apple Macintosh Photo numérique. Compression liée aux limites de l' œil Imagerie radiologique Dans la pratique, il est à constater que deux standards se dégagent : TIFF pour l'imagerie numérique en général et JPEG pour la photographie numérique. Un format gadget subsiste sur le Web : GIF de Compuserve qui ne code que 256 couleurs maximum, mais qui possède un bon taux de compression et la possibilité d'inclure dans un même fichier plusieurs images afin de gérer de petites animations. I.5 : Quelques logiciels Ici aussi, on peut distinguer trois grandes familles d'outils : les logiciels de traitement d'image, incluant des outils avancés de filtrage et d'analyse mathématique; les logiciels de retouche photo, spécifiquement destiné à la manipulation de photographies numériques et enfin des "petits" logiciels le plus souvent dans le domaine public, incluant des petites fonctionnalités bien pratiques. • Traitement d'image - NIH Image (MAC) Scion Image (PC) Media Cybernetics Image Pro Plus (PC) • Retouche photo - Adobe PhotoShop (PC-MAC) Paint Shop Pro (PC) Gimp (Linux) • Le petit + : un convertisseur de 120 formats - XN View (PC) : 18 http://rsb.info.nih.gov/nih-image http://www.scioncorp.com http://www.mediacy.com DP DP http://www.adobe.com http://www.jasc.com/ http://www.gimp.org Cher http://perso.wanadoo.fr/pierre.g DP DP Imagerie Numérique : Introduction en douceur I.6 : Une petite bibliographie Non exhaustive bien sûr….. La Synthèse d'Images B. Péroche, J. Argence, D. Ghazanfarpour, D. Michelucci Traité des Nouvelles Technologies – HERMES – 1990 Précis d'Analyse d'Images M. Coster, JL. Chermant Presses du CNRS – 1989 Vision par Ordinateur R. Horaud, O. Monga Deuxième édition – Hermes Les fichiers graphiques sur Ordinateurs C. Lepecq, N. Rimoux Armand Colin Graphics and Image Processing T. Pavlidis Springer Verlag – 1982 Digital Image Processing W.K. Pratt Wiley Interscience – 1978 Digital Image Processing R.C Gonzalez, P. Wintz Addison-Wesley - 1987 19