Activité 4 : CODAGE ALPHANUMERIQUE Classe de Terminale S

Transcription

Activité 4 : CODAGE ALPHANUMERIQUE Classe de Terminale S
Activité 4 : CODAGE ALPHANUMERIQUE
Classe de Terminale S - Spécialité ISN
Objectif: Après avoir vu comment sont codés les nombres, on se propose de découvrir comment l’ordinateur travaille
pour coder les caractères et pourquoi découle la nécessité de définir un code universel de codage.

1 – Ecriture d’un texte dans le bloc-notes.
a) Ecriture d’un texte.
Ouvrir le « Bloc Note » de Windows.
 Ecrire en majuscule votre « PRENOM ». faire un espace puis votre « NOM ».
 Aller à la ligne et écrire votre classe « TERMINALE S3»
 Ecrire le nom de votre lycée « LYCEE LES CORDELIERS ».
Enregistrer le fichier sous le nom : « Essai_Ansi.text » en prenant soin de vérifier le codage d’enregistrement ANSI.
Ouvrir le texte avec un logiciel éditeur hexadécimal (par exemple HextEdit à télécharger).
Remarquer ce que fait ce logiciel et noter vos observations. Faire une copie d’écran à placer dans un fichier de type
« Word » ou « Open Office Writter ».
Vérifier avec la table ASCII que le codage des caractères saisis au clavier est conforme au code ASCII.
Noter les caractères de contrôle qui permettent de réaliser :
 L’espace :
 Le saut de ligne :
 Le retour de chariot :
b) Codage en binaire d’un texte avec l’éditeur hexadécimal.
Dans l’éditeur hexadécimal, et en utilisant la fiche du code ASCII, remplacer les données en binaire pour faire
apparaître à la place du nom du lycée le code postal : « 22100 DINAN ».
Sauver le fichier sous le même nom.
Ouvrir le fichier dans « Bloc Note » avec le même nom et vérifier que la modification a été bien faite.
Dans le « Bloc-Note », on peut taper du texte en appuyant simultanément sur la touche ALT et en composant le code
ASCII correspondant à une lettre. Exemple : si on fait « ALT » + 65, il apparaît le caractère « A ».
Quelques questions.

Est-il possible de faire apparaître le mot « Lycée avec le code ASCII ?

Décoder la chaîne ASCII suivante : $49 - $53 - $4E - $20 - %0110000 - $31 - $32.

Que signifient les acronymes : ESC ? BEL ? EOT ?
c) Codage d’un texte en ANSI.
Codé sur 7 bits, le codage ASCII ne permet qu’une représentation de 128 caractères (même moins car en réalité
certains caractères, dits de contrôle, ne sont pas affichables). Comme nous utilisons dans la langue française des
caractères d’accentuation (é, ê, ù …) et qu’il faut aussi utiliser des symboles monétaires € …, le jeu ASCII de base a
été étendu tout d’abord à 8 bits, soit 256 codes possibles. Ce jeu était connu sous l’appellation ANSI (Américan
National Standards Institute).
Différentes versions de ce jeu existent et correspondent à des zones linguistiques. La version ANSI englobant les
caractères accentués des langues occidentales s’appellent Latin-1 et correspondent à la norme ISO-8859-1. Les 128
premiers caractères sont identiques à ceux du jeu ASCII, les autres (caractères étendus) sont définis dans le document
fourni en annexe.
Remarque. Le « Bloc Note » de Windows est un utilitaire intégré, c’est le code « Windows-1252 » qui est utilisé lors
d’une sauvegarde ANSI. Ce code est néanmoins très proche du code ISO-8859-1.
Dans le « bloc note » écrire maintenant votre PRENOM, NOM, le nom du lycée, le code postal… en minuscule et en
mettant des accents. Ajouter le symbole « € ».
_____________________________________________________________________________________________________________________
Année Scolaire 2014-2015 - Lycée « Cordeliers-Victoire » - DINAN - Spécialité ISN - Terminale S – Mardi 13 Octobre
1
Ouvrir le fichier avec l’éditeur hexadécimal et vérifier les codes binaires utilisés par rapport à la table Latin-1 ou
Windows-1252 fournies. Repérer sur la copie d’écran les caractères étendus par un surlignage. Regarder surtout le
caractère « € ».
Chercher des renseignements sur cette norme ISO-8859-n. Expliquer pourquoi on place « - n » à la fin.
Que propose la norme ISO-8859-15 par rapport à la norme ISO-8859-1.
2 – Encore plus d’universalité.
Pour coder tous les caractères ou symboles utilisés dans le monde entier et ce, quelle que soit la langue utilisée, il faut
lui attribuer un nom et un identifiant numérique, et cela de manière unifiée. C’est ce que propose la norme
UNICODE., développée par le consortium du même nom (voir www.unicode.org) Chaque symbole d’écriture est
donc représenté par un nom et une valeur hexadécimale préfixée par « U+ ». Exemple : A = U+0041 ; é = U+000E9 ;
€ : U+20AC.

Ouvrir le fichier UNICODE.pdf. On peut vérifier que le caractère « é » est bien représenté par le U+00E9.

Essayer avec le « Bloc Note ». Sauver cette fois sous le format UTF-8 avec le nom suivant
« Essai_UTF8.txt »

Ouvrir le fichier avec l’éditeur hexadécimal et examiner les codes.

Faire une copie d’écran.

Repérer déjà les trois octets appelés BOM (byte order mark) au début du fichier pour indiquer que le codage
est en UTF-8. Les noter.

Repérer ensuite les 2 octets utilisés pour le caractère « é » de lycée puis les trois octets utilisés pour le
caractère « € ». Les noter.

En utilisant cette fois la norme UTF-8, détailler le codage du « é » ci-dessous pour montrer que vous avez
compris le principe.
2
2 octets codant de 8 à 11
bits
3
3 octets codant de 12 à 16
bits
Pour conclure.
Un inconvénient du codage UTF-8 ? Regarder la taille du fichier texte pour les deux cas « Essai_UTF8.txt » et
« Essai_ANSI.txt »
Heureusement, c’est pour cela que l’on peut mélanger l’ASCCI et l’UTF-8 dans un même fichier pour éviter la
surcharge de sa taille. Ici, tous les caractères sauf « € » et « é » sont codés sur un octet.
3 – Monsieur Jourdain et l’Unicode.
Comme Monsieur Jourdain faisait de la prose
sans le savoir, vous utilisez UNICODE sans
le savoir.
Quelques exemples :
a) Traitement de texte comme Open
Office ou Word
Faire « insérer caractère » et regarder le
codage associé. Par exemple retrouver le
symbole « ∫ » qui ne peut être tapé au clavier
On voit que ∫ = U+222B
b) Dans la messagerie Thunberbird
_____________________________________________________________________________________________________________________
Année Scolaire 2014-2015 - Lycée « Cordeliers-Victoire » - DINAN - Spécialité ISN - Terminale S – Mardi 13 Octobre
2
(Linux).
c) Dans les pages HTML (ici Firefox).
Ouvrir la page avec le moteur de recherche Google. Changer le codage dans le menu comme indiqué ci-dessous et
observer le résultat sur les caractères affichés. Voir aussi avec « Internet Explorer ».

Choisir plus d’encodage si vous voulez encore observer d’autres choses ou aller sur les sites asiatiques et
observer ce qui se passe
 Expliquer comment le logiciel qui lit les données peut reconnaître si le codage d’un caractère en UFT-8 a lieu
sur 1, 2, 3 ou 4 octets
 Chercher d’autres exemples qui utilisent le codage UTF-8.
_______________________________________________________________________________________________
_____________________________________________________________________________________________________________________
Année Scolaire 2014-2015 - Lycée « Cordeliers-Victoire » - DINAN - Spécialité ISN - Terminale S – Mardi 13 Octobre
3

Documents pareils

Codage des caractères Table ASCII (American Standard Code for

Codage des caractères Table ASCII (American Standard Code for Pour un texte "normal", on occuperait donc presque deux fois plus de place en mémoire ! L'une des principales normes d'encodage des caractères est l'Utf-8. Les principaux caractères (pour les anglo...

Plus en détail