Théorie de l`Information - Laboratoire d`Informatique de Grenoble
Transcription
Théorie de l`Information - Laboratoire d`Informatique de Grenoble
Théorie de l’Information Massih-Reza Amini Université Joseph Fourier Laboratoire d’Informatique de Grenoble [email protected] 2/31 Rappel Canal de communication Codage par répétition Table des matières 1 Rappel 2 Canal de communication 3 Codage par répétition [email protected] Théorie de l’Information 3/31 Rappel Canal de communication Codage par répétition Sources et codage et source q Parmi les classes possibles de modèles de source, nous nous intéresserons plus particulièrement aux sources discrètes sans mémoire. q La sortie d’une telle source est une séquence de lettres tirées aléatoirement d’après une loi de probabilité p indépendante du temps à partir d’un alphabet fini A = {a1 , . . . , an } q Exemple : Soit une source d’information S travaillant sur l’alphabet suivant A = {a1 , a2 , a3 , a4 }. Supposons qu’il existe deux codages de source transformant cette information discrète en symboles binaires : Codage 1 a1 → 00 a2 → 01 a3 → 10 a4 → 11 Codage 2 a1 → 0 a2 → 10 a3 → 110 a4 → 111 q Si S émet les caractères de l’alphabet avec une distribution de probabilité uniforme, la longueur moyenne d’un symbole codé par le codage 1 est inférieure à la longueur moyenne d’un symbole codé par le codage 2. q Si l’on a une source qui émet les caractères avec la probabilité suivante; p(a1 ) = 1 2 , p(a2 ) = 1 4 , p(a3 ) = p(a4 ) = 1 8 Le deuxième codage réussit à coder quatre symboles avec moins de deux bits, par rapport au codage 1 (il réalise ainsi une compression). [email protected] Théorie de l’Information 4/31 Rappel Canal de communication Codage par répétition Entropie d’une source discrète q Avec l’outil des probabilités, on peut aussi établir un lien entre l’information fournie par une source et la distribution de probabilité de la sortie de cette source. On part de l’hypothèse que : l’apparition d’un événement peu probable apporte beaucoup d’information tandis que l’occurrence d’un événement certain ne fournit au contraire aucune information. q Si une lettre a, a une probabilité p(a) d’être tirée, son information propre est définie par : I(a) = − log2 p(a) q La valeur moyenne de l’information propre calculée sur l’ensemble de l’alphabet, appelée entropie de la source, H(A) revêt une grande importance dans la théorie de l’information X H(A) = − p(a) × log2 p(a) a∈A L’entropie d’une source est parfois donnée en bits/seconde, si l’entropie d’une source discrète est H et si les lettres sont émises toutes les τs secondes, son entropie est H/τs bits/s. [email protected] Théorie de l’Information 5/31 Rappel Canal de communication Codage par répétition Entropie d’une source discrète q L’entropie conditionnelle (élémentaire) de X étant donné Y = y est donnée par X H(X | Y = y) − p(x | y ) log2 p(x | y ) x∈X q L’entropie conditionnelle (moyenne) de X sachant Y , H(X | Y ) est alors X XX H(X | Y ) = p(y )H(X | y ) = − p(x, y ) log2 p(x | y ) y ∈Y x∈X y ∈Y q Pour toute paire de variables aléatoires X et Y , nous avons toujours H(X , Y ) = H(Y ) + H(X | Y ) T H ÉOR ÈME . Soit (A, p) un espace probabilisé discret de cardinal n. Nous avons alors H(A) ≤ log2 n avec l’égalité ssi la loi de probabilité p est uniforme sur A. [email protected] Théorie de l’Information 6/31 Rappel Canal de communication Codage par répétition Entropie conditionnelle Entorpie conditionnelle Soit X1 , X2 , Y1 et Y2 quatre variables vérifiant la condition P(Y1 , Y2 | X1 , X2 ) = P(Y1 | X1 ) × P(Y2 | X2 ) Montrer que H(Y1 , Y2 | X1 , X2 ) = H(Y1 | X1 ) + H(Y2 | X2 ) De façon générale, pour 2n variables aléatoires X1 , . . . , Xn , Y1 , . . . Yn vérifiant P(Y1 , . . . , Yn | X1 , . . . Xn ) = n Y P(Yi | Xi ) i=1 Nous avons alors H(Y1 , . . . , Yn | X1 , . . . , Xn ) = n X H(Yi | Xi ) i=1 [email protected] Théorie de l’Information 7/31 Rappel Canal de communication Codage par répétition Inégalité de Kraft T H ÉOR ÈME : Inégalité de Kraft Il existe un code instantané k-aire de N mots de code et dont les longueurs des mots de code sont les entiers positifs l1 , l2 , . . . , lN si et seulement si N X k −li ≤ 1 (1) i=1 Lorsque l’égalité se réalise, le code instantané correspondant est complet. Exemple 1. Calculer la somme intervenant dans la partie gauche de l’inégalité de (Eq. 1); pour le code instantané binaire {00, 01, 10, 111}. 2. D’après l’inégalité de Kraft, existe-il un code instantané ternaire dont les longueurs de mots de code sont 1, 2, 2 et 4? 3. Un tel code est-il complet? [email protected] Théorie de l’Information 8/31 Rappel Canal de communication Codage par répétition Inégalité de Kraft Piège à éviter Le piège à éviter avec le théorème précédent est que le théorème nous apprend uniquement quand un code instantané peut exister, mais il ne répond absolument pas à la question est-ce qu’un code donné est instantané? Par exemple, le code {0, 00, 10} n’est pas instantané mais on a bien 2−1 + 2−2 + 2−2 = 1 Mais le théorème dit bien qu’il existe un code instantané de longueur de codes respectifs 1,2 et 2 (par exemple {0, 10, 11}). [email protected] Théorie de l’Information 9/31 Rappel Canal de communication Codage par répétition Code efficace q Quand on code une source d’information le but est de minimiser la longueur moyenne de codage; q Généralement minimiser la longueur moyenne de code équivaut à minimiser l’espérance de la longueur de code. q Rappel : Si on suppose que le symbole-source ai (1 ≤ i ≤ n) a un probabilité pi d’être émis, et si on dénote li la longueur du mot de code correspondant, l’espérance de la longueur de code E(L) est : E(L) = n X pi li i=1 Parmi tous les codes possibles, nous recherchons des codes instantanés tels que E(L) soit aussi petit que possible. q Il est ainsi évident que nous devrions assigner les mots de code les plus courts aux symboles-source les plus probables... mais comment savoir quelles longueurs de mots de codes utiliser? Quel est le plus petit E(L) à pouvoir être atteint? [email protected] Théorie de l’Information 10/31 Rappel Canal de communication Codage par répétition Théorème de Shannon sur le codage T H ÉOR ÈME : Théorème de Shannon sur le codage Pour toute source d’information discrète sans mémoire d’entropie H(A), l’espérance de la longueur de code E(L) de tout code k-aire instantané pour cette source satisfait : H(A) (2) E(L) ≥ log2 k Exemple Considérons une source d’information d’alphabet A = {1, 2, 3, 4}, avec la distribution de probabilité suivante : ai P(X = ai ) 1 0.5 2 0.25 3 0.125 4 0.125 Considérons le codage suivant de cette source z1 z2 z3 z4 0 10 110 111 1. Quelle est l’espérance de la longueur de ce code? 2. Ce code est-il efficace (optimal du point de vue de l’espérance de la longueur de code)? [email protected] Théorie de l’Information 11/31 Rappel Canal de communication Codage par répétition Codes instantanés de Shannon-Fano Le code de Shannon-Fano prend pour chaque symbole ai ∈ A, un code de longueur log pi li = − 2 log2 k Exemple 1. Montre qu’un tel code instantané existe toujours. 2. Montrer E(L) < H(A) log2 k + 1 (À quel point un tel code est-il bon)? T H ÉOR ÈME : Théorème de Shannon sur le codage (2ème partie) Pour toute source d’information discrète sans mémoire d’entropie , il existe au moins un code instantané k-aire dont l’espérance de la longueur de code satisfait : H(A) E(L) < +1 log2 k [email protected] Théorie de l’Information 12/31 Rappel Canal de communication Codage par répétition Théorème du codage sans bruit de Shannon Partie 1: Pour toute source d’information sans mémoire discrète d’entropie H(A), et pour tout code k -aire instantané de cette source, la longueur moyenne du code E(L) vérifie : E(L) ≥ H(A) log2 k Partie 2: Pour toute source d’information sans mémoire discrète d’entropie H(A), il existe au moins un code k -aire instantané dont la longueur moyenne E(L) vérifie : E(L) < H(A) +1 log2 k q Piège 1: La première partie du théorème vaut pour les codes sans préfixes, des codes ambigus peuvent descendre en-dessous de la limite. Par exemple ai 1 2 3 4 P(X = ai ) 0.25 0.25 0.25 0.25 zi 0 1 01 001 q Piège 2 : La seconde patrie donne une borne supérieure pour les codes optimaux, d’autres codes sous optimaux peuvent être plus longs. ai 1 2 3 4 P(X = ai ) 0.25 0.25 0.25 0.25 zi 0011 1010 0111 1111 [email protected] Théorie de l’Information 13/31 Rappel Canal de communication Codage par répétition Communication à travers un canal bruité Quel effet le bruit a-t-il sur la transmission des messages? q Il n’est jamais possible de transmettre les messages de façon fiable (trop de bruit), q Il est possible de transmettre des messages avec une probabilité d’erreur raisonnable, q Il est possible de transmettre des messages avec une probabilité d’erreur aussi faible que l’on veut. Le point central est de savoir en quoi le codage peut-il aider à transmettre l’information de façon fiable, même en présence de bruit pendant la transmission. bruit source a1 . . . an | {z } codeur A [email protected] z1 . . . zn | {z } Z canal ẑ1 . . . ẑn | {z } décodeur Ẑ Théorie de l’Information récepteur â1 . . . ân | {z }  14/31 Rappel Canal de communication Codage par répétition Canaux et codage de canal q Pour modéliser un canal de transmission, il est nécessaire de spécifier l’ensemble des entrées et l’ensemble des sorties possibles. le cas le plus simple est celui du canal discret sans mémoire. q L’entrée est une lettre prise dans un alphabet fini VZ = {z1 , . . . , zn } et la sortie est une lettre prise dans un autre ou même alphabet fini B = {ẑ1 , . . . , ẑM }. Ces lettres sont émises en séquence, et, le canal est sans mémoire si chaque lettre de la séquence reçue ne dépend que de la lettre de même position. P(Ẑi = ẑi | Z1 = z1 , .., Zi = zi , Ẑ1 = ẑ1 , .., Ẑi−1 = ẑi−1 ) = P(ẑi | zi ) q Un canal discret sans mémoire est entièrement décrit par la donnée des probabilités conditionnelles p(ẑ | z). q Exemple : Le canal binaire symétrique: Z = Ẑ = {0, 1} 0 1−p 0 p p 1 [email protected] 1−p 1 Théorie de l’Information 15/31 Rappel Canal de communication Codage par répétition Canal discret sans mémoire et sans retour On dit qu’un canal discret sans mémoire est sans retour si P(Zi | Z1 . . . Zi−1 , Ẑ1 , . . . , Ẑi−1 ) = P(Zi | Z1 . . . Zi−1 ) Théorème. Sur un canal discret sans mémoire et sans retour, nous avons P(Ẑ1 , . . . , Ẑn | Z1 , . . . , Zn ) = n Y P(Ẑi | Zi ) i=1 D’après la règle de multiplication pour les probabilités conditionnelles P(Z1 , Ẑ1 , . . . , Zn , Ẑn ) = n Y P(Zi | Z1 . . . Zi−1 , Ẑ1 , . . . , Ẑi−1 )P(Ẑi | Z1 , . . . , Zi , Ẑ1 , . . . Ẑi−1 ) i=1 Comme le canal est sans mémoire et sans retour P(Z1 , Ẑ1 , . . . , Zn , Ẑn ) = n Y i=1 [email protected] P(Zi | Z1 . . . Zi−1 ) n Y P(Ẑi | Zi ) = P(Z1 , . . . , Zn ) i=1 Théorie de l’Information n Y i=1 P(Ẑi | Zi ) 16/31 Rappel Canal de communication Codage par répétition Taux de transmission Le taux de transmission (en base b) du code d’une source discrète A de |VU | messages avec des mots de code de longueur fixe lc est défini par : Rb = logb |VU | lc |VU | est le nombre de mots de code possibles. Exemple Le taux de transmission pour transmettre K bits en utilisant des mots de codes de longueur N à travers un canal sans mémoire et sans retour est R= [email protected] K N Théorie de l’Information 17/31 Rappel Canal de communication Codage par répétition Mesure de l’information q En suivant le modèle probabiliste, fournir une information à un utilisateur consiste à choisir un événement parmi plusieurs possibles. Qualitativement fournir une information consiste à lever une incertitude sur l’issue d’une expérience aléatoire. q La notion d’information est donc inhérente à celle de probabilité conditionnelle. Considérons les événements {Z = z} et {Ẑ = ẑ}, la probabilité p(z | ẑ) peut être interprétée comme la modification apportée à la probabilité p(z) de l’événement {Z = z} lorsque l’on reçoit l’information que l’événement {Ẑ = ẑ} s’est réalisée. Ainsi q si p(z | ẑ) ≤ p(z), l’incertitude sur z augmente; q si p(z | ẑ) ≥ p(z), l’incertitude sur z diminue; q Ainsi l’information ẑ est réalisée diminue l’incertitude sur z de la quantité appelée information mutuelle : I(z; ẑ) = I(z) − I(z | ẑ) = log2 [email protected] Théorie de l’Information p(z | ẑ) p(z) 18/31 Rappel Canal de communication Codage par répétition Information mutuelle I(z; ẑ) = I(ẑ; z) = log2 p(z, ẑ) p(z)p(ẑ) q I(z; ẑ) > 0 signifie que si l’un des deux événements se réalise, alors la probabilité de l’autre augmente ; q I(z; ẑ) < 0 signifie que si l’un des deux événements se réalise, alors la probabilité de l’autre diminue ; q I(z; ẑ) = 0 signifie que les deux événements sont statistiquement indépendants. Exemple : Considérons le canal binaire symétrique de probabilité de transition p avec des entrées notées z1 , z2 équiprobables et des sorites ẑ1 , ẑ2 . z1 1−p ẑ1 p p z2 ẑ2 1−p Pour quelles valeurs de p l’observation de ẑ1 (ẑ2 ) à la sortie du canal augmente (diminue) la probabilité d’émission du symbole z1 ? [email protected] Théorie de l’Information 19/31 Rappel Canal de communication Codage par répétition Gain d’information L’information mutuelle moyenne, ou le gain d’information entre deux alphabets Z et Ẑ est l’information mutuelle moyenne définie par I(Z ; Ẑ ) = X z∈Z ,ẑ∈Ẑ p(z, ẑ)I(z; ẑ) = X p(z, ẑ) log2 z∈Z ,ẑ∈Ẑ p(z, ẑ) p(z)p(ẑ) P ROPOSITION . Soit Z Ẑ un espace probabilisé joint. Le gain d’information I(Z ; Ẑ ) de Z et Ẑ est toujours positive ou nulle. Elle est nulle ssi Z et Ẑ sont statistiquement indépendants. Ce résultat signifie essentiellement que, en moyenne, le fait de connaı̂tre la valeur de ẑ dans Z diminue toujours l’incertitude sur Z , sauf si Z et Ẑ sont indépendants auquel cas aucune information n’est apportée. Corollaire Pour toute paire de variables Z et Ẑ , nous avons I(Z ; Ẑ ) = H(Z ) − H(Z | Ẑ ), soit H(Z | Ẑ ) ≤ H(Z ) L’égalité se réalise si et seulement si Z et Ẑ sont indépendants. [email protected] Théorie de l’Information 20/31 Rappel Canal de communication Codage par répétition Lemme de traitement des données source codeur A canal Z Ẑ Si par le biais du codage et de la communication canal A ne puisse affecter Ẑ qu’indirectement à travers son effet sur Z , i.e. P(Ẑ = ẑ | a, z) = P(Ẑ = ẑ | z) Alors l’informaion ne peut augmenter d’aucune façon par un quelconque traitement : I(A; Ẑ ) ≤ I(Z ; Ẑ ) et I(A; Ẑ ) ≤ I(A; Z ) Démonstration : I(Z ; Ẑ ) = H(Ẑ ) − H(Ẑ | Z ) = H(Ẑ ) − H(Ẑ | A, Z ) ≥ H(Ẑ ) − H(Ẑ | A) {z } | Idem avec, P(a | z, ẑ) = [email protected] P(a,z,ẑ) P(z,ẑ) = P(ẑ|a,z)P(a,z) P(z,ẑ) = I(A;Ẑ ) P(ẑ|z)P(a|z)P(z) = P(z)P(ẑ|z) Théorie de l’Information P(a | z) 21/31 Rappel Canal de communication Codage par répétition Capacité du canal q L’un des paramètres les plus importants pour décrire un canal est sa capacité. La capacité, C, est la quantité maximale d’information moyenne que la sortie du canal peut fournir sur l’entrée. C = max I(Z ; Ẑ ) pZ où Z représente l’entrée du canal et Ẑ est sa sortie. Ou de façon équivalente : C = max H(Ẑ ) − H(Ẑ | Z ) pZ Capacité d’un canal binaire symétrique Montrer que la capacité d’un canal binaire symétrique est C = 1 − h̃(p) Avec h̃(p) = −p log(p) − (1 − p) log(1 − p). [email protected] Théorie de l’Information 22/31 Rappel Canal de communication Codage par répétition h̃(p) = −p log(p) − (1 − p) log(1 − p) La fonction h̃(.) 1 0.8 0.6 0.4 0.2 0.2 [email protected] 0.4 0.6 p Théorie de l’Information 0.8 1 23/31 Rappel Canal de communication Codage par répétition Lemme de Fano Le lemme de Fano représente l’un des résultats les plus intéressants et les plus importants en théorie de l’information. Ce lemme relie la probabilité d’erreur qu’une variable aléatoire A, représentant un symbole d’entrée, soit différente de l’estimation de cette variable aléatoire en sortie,  (Pe = P(A 6= Â)) à l’incertitude H(A | Â) : L EMME DE FANO. Soit A et  deux variables aléatoires n-aire (de même nombre de symboles n) avec le même alphabet. En dénotant Pe = P(A 6= Â), nous avons h̃(Pe ) + Pe log2 (n − 1) ≥ H(A | Â) où l’incertitude H(A | Â) est exprimée en bits. [email protected] Théorie de l’Information 24/31 Rappel Canal de communication Codage par répétition Lemme de Fano, démonstration Soit X la v.a. définie comme l’indicatrice d’erreur ( 1 si A 6= Â, X = 0 si A = Â. Avec définition nous avons h̃(Pe ) = H(X ). De plus comme X est définie de façon unique par A et  H(A | Â) = H(A | Â) + H(X | A, Â) = H(A, X | Â) {z } | =0 Soit H(A | Â) = H(A, X | Â) = H(X | Â) + H(A | Â, X ) ≤ H(X ) + H(A | Â, X ) Finalement H(A | Â, X ) = P(X = 0) × H(A | Â, X = 0) + P(X = 1) × H(A | Â, X = 1) | {z } | {z } | {z } =0 [email protected] =Pe Théorie de l’Information ≤log2 (n−1) 25/31 Rappel Canal de communication Codage par répétition Lemme de Fano, interprétation h̃(Pe ) + Pe × log2 (3) 2 1.5 1 0.5 H(A | Â) 0.2 0.6 0.8 1 Pe Lorsqu’une valeur positive de H(A | Â) est donnée, le lemme de Fano fournit une borne inférieure positive sur Pe . [email protected] 0.4 Théorie de l’Information 26/31 Rappel Canal de communication Codage par répétition Transmission bruitée via un canal binaire symétrique par répétition de code Supposons que nous voulons transmettre les 8 messages suivants 000, 001, 010, 100, 011, 101, 110, 111 avec le canal binaire symétrique où chaque symbole a une probabilité p = 0.1 d’être changé. 1. Quelle est la probabilité de transmettre correctement un de ces messages (la probabilité de transmettre 3 fois un bit sans erreur)? 2. Supposons que nous décidons de coder chaque symbole du message par deux fois lui-même. Quelle est maintenant la probabilité d’avoir un message envoyé correctement? 3. Quelle est la probabilité d recevoir un message erroné qui semble valide (c’est à dire la probabilité de recevoir un message erroné sans s’apercevoir qu’il est faux)? [email protected] Théorie de l’Information 27/31 Rappel Canal de communication Codage par répétition Codage par répétition q Les codes binaires à répétition sont des codes tel que chaque symbole binaire d’entrée est répétée un nombre impair de fois. q Le choix du nombre impair est parce que le décodage de tels codes se fait par un vote majoritaire. q Avec de tels codes, si chaque symbole est répété k = 2l + 1 fois, la probabilité d’une mauvaise décision concernant le décodage d’un symbole est la probabilité qu’au moins l + 1 erreurs soient produites sur le bloc. q D’autre part, comme le nombre d’erreurs commises par le canal suit une distribution binomiale de paramètres (k , p), le nombre d’erreurs moyen au niveau de la transmission de symboles de mots de code est kp q Pour p < 0.5 ce nombre est inférieur à l + 0.5, donc lorsque k tend vers l’infini ce nombre tend à être négligeable. En d’autres termes, la probabilité que l’on prenne une mauvaise décision en décodant devient négligeable à mesure que le nombre de répétitions augmente q Cependant, dans ce cas, le prix à payer est très élevé en termes d’efficacité. En effet, le taux de transmission d’un tel code O( k1 ) tend aussi 0 vers lorsque k tend vers l’infini. [email protected] Théorie de l’Information 28/31 Rappel Canal de communication Codage par répétition Partie réciproque du théorème de codage en présence de bruit Théorème Si les bits d’information d’une source symétrique binaire sont acheminés à un taux de transmission R à travers un canal discret sans mémoire et sans retour de capacité C, dans le cas où la capacité du canal est inférieur au taux de transmission, C < R, alors la probabilité d’erreur par bit en sortie Pb est au moins égale à h̃−1 (1 − CR ). C Pb ≥ h̃−1 1 − R Où h̃−1 (x) = minp {−p(log2 (p) − (1 − p) log2 (1 − p) = x} Ce théorème stipule que dans le cas où la capacité d’un canal discret sans mémoire est inférieure au taux de transmission, alors la probabilité d’erreur par bit en sortie est toujours supérieure à une borne inférieure positive et cela quelque soit la façon de coder/décoder l’information. [email protected] Théorie de l’Information 29/31 Rappel Canal de communication Codage par répétition Démonstration q Pour une source symétrique binaire, nous avons P(A = 0) = P(A = 1) = 12 , ce qui donne une entropie H(A) = 1 bit par symbole source. q Soit K le nombre de bits d’information transférer dans le canal en utilisant des mots de codes de N digits. Le taux de transmission est donc R = KN . q D’autre part d’après le lemme de traitements des données I(A1 , . . . , AK , Â1 , . . . , ÂK ) ≤ I(Z1 , . . . , ZN , Â1 , . . . , ÂN ) Et, I(Z1 , . . . , ZN , Â1 , . . . , ÂN ) ≤ I(Z1 , . . . , ZN , Ẑ1 , . . . , ẐN ) Nous avons par transitivité I(A1 , . . . , AK , Â1 , . . . , ÂK ) ≤ I(Z1 , . . . , ZN , Ẑ1 , . . . , ẐN ) [email protected] Théorie de l’Information 30/31 Rappel Canal de communication Codage par répétition Démonstration q Or, comme le canal est discret sans mémoire et sans retour I(Z1 , . . . , ZN , Ẑ1 , . . . , ẐN ) = H(Ẑ1 , . . . , ẐN ) − H(Ẑ1 , . . . , ẐN | Z1 , . . . , ZN ) | {z } PN i=1 q et, H(Ẑ1 , . . . , ẐN ) ≤ PN i=1 H(Ẑi |Zi ) H(Ẑi ) q Nous avons I(Z1 , . . . , ZN , Ẑ1 , . . . , ẐN ) ≤ N X H(Ẑi ) − H(Ẑi | Zi ) i=1 = N X I(Zi ; Ẑi ) i=1 ≤ N ×C q Nous cherchons à donner une borne inférieure de la probabilité d’erreur par bit en sortie : K 1 X Pb = P(Âi 6= Ai ) K i=1 [email protected] Théorie de l’Information 31/31 Rappel Canal de communication Codage par répétition Démonstration q Pour cela on part de la définition de l’entropie conditionnelle H(A1 , . . . , AK | Â1 , . . . , ÂK ) = H(A1 , . . . , AK ) − I(A1 , . . . , AN , Â1 , . . . , ÂN ) ≥ K − I(Z1 , . . . , ZN , Ẑ1 , . . . , ẐN ) ≥ K − NC = N(R − C) q D’après le lemme de Fano N(R − C) ≤ H(A1 , . . . , AK | Â1 , . . . , ÂK ) = K X H(Ai | Â1 , . . . , ÂK , A1 , . . . , Ai−1 ) i=1 ≤ K X i=1 H(Ai | Âi ) ≤ K X h̃(P(Âi 6= Ai )) i=1 q On conclut en utilisant la concavité de la fonction h̃ et l’inégalité de Jensen ! K K 1 X 1 X N C h̃ P(Âi 6= Ai ) ≥ h̃(P(Âi 6= Ai )) ≥ (R − C) = 1 − K K K R i=1 i=1 | {z } h̃(Pb ) [email protected] Théorie de l’Information