1 Les jeux de caractères en XML et (X)HTML – la norme Unicode
Transcription
1 Les jeux de caractères en XML et (X)HTML – la norme Unicode
Problème : utilisation de différents alphabets dans les documents informatiques Les jeux de caractères en XML et (X)HTML – la norme Unicode • Systèmes d’écriture – alphabétiques : dizaines de signes • souvent phonétiques (origine commune ? Ougarit ?) • ex. : alphabet latin (et dérivés), grec, arabe, hébreu – syllabiques : centaine de signes • ex. : syllabaires japonais ou inuit Andrei Popescu-Belis TIM / ETI, Université de Genève – idéographiques : dizaines de milliers de signes • chronologiquement les plus anciens, « signes mots » • ex. : idéogrammes chinois/japonais Cours n°5 • Comment les utiliser dans les documents ? • Comment être sûr qu’ils sont affichés correctement ? Comment les ordinateurs affichent-ils les caractères ? Définitions . % % ! $ & / # " # % ' ( ! % ' % *+ , *++ + ! % () ++ ' 1 0 % & % 2 " % !3 - Remarques 4 Trois jeux de caractères importants 9:;,:<== # $ % " & % ? ( 67 8 % ! ! 5 "' @ =:A B +* # =:A;$$+C; ! ( & 'A ! / 9 % # ! % =:A;$$+C; * % > =:A;8, =D; ! < $ 3 ' =:A;$$+C; " + E > % F ! + > 9 ?;$ 9<:; 9<:; * > * La norme Unicode 9 & Historique de la norme Unicode % < % ) " 4 & % % ) H % " " 3 ' 9 ) >)> <.I ! 3 ) " J < 00555> 00555> K 5 @ K @ 9 2 =:A A !> > G *+'+ * : 9 L L L > -> +> CC CC CC* >! % B )B * > > > > > -> +> *-* % % % - $' C*' $ C$'$$- * 9 9 9 9 9 9 9 > !0 % CC =:A0=(< G <4 G =:A G =:A G =:A G =:A G =:A ! " =:A *-*; *-*; *-*; 2 *-*; *-*; *-* # / / Utilisation des jeux de caractères dans les traitements de texte 8 ! @ M B ' & $ Solution : déclaration d’encodage en XML 67 8 G " 8 ' ' ) & % ! G' 3 N ! # ! ' # # ! K 5 8' () O! ! ' 1 ) 2 % M ! ! F 67 8 % % = ;; # ' ) ! <?xml encoding="UTF-8"?> <?xml encoding="ISO-8859-1"?> 9 ?;$ ' ! # F Q " > ' ' ! F P # ! > ) C Comment enregistrer un fichier XML avec un encodage précisé ? 67 8 : 3 ? ( R( !R J ! ) F 3 ' # # #! ) ) ' ! ! R( ! @ # B #! , ! R< ' ! & ' ! , ! R( ! & " 'N " # % 5 , ! 7 :K D Pour vérifier l’encodage réel d’un document au format XML ou texte % " # ' ! ' 3 % #! # ' K ' ! ) ' ! D ,D:=SG T9 SG9<:; 09 ?; *T 9 ! SG9 ?; *U(T 9 ?;$ K ) S,D:=T ) 7 :;4A: ) 9 S9<:; T J ? ) A # # 7 :K ! ) ' " F ! @ ) ! ' H B Insertion de caractères spéciaux dans les documents XML 9 % < 0 Déclaration de l’encodage pour les documents XHTML et HTML # 6Z 7 8 ' % ' ! 9 Z 78 67 8 : 3 9 ' VW) +UX < < ' ' > > " Y 4 VW* X % 9 # # ( ! & ) ' Insertion de caractères spéciaux dans les fichiers (X)HTML 9 ' # 0 ' 9 >)>VW* 4 4 • é & 6 Z 78 >)> õ ü © < œ γ =:A;8, =D; 3 > ' % ) 00555> 5 > !0 0 (<; - 0! 0 00555> 5 > !0 0) 04 40) ; ; 3 > ! 4 4 " @ ( 3Z % ! ! ' " " " X VW) +UX " ) % ) ( ! # " F 9:;,:<== ; ' ! - Conclusion 67 8 % ' # 9 ?;$ =:A;$$+C; 00555> > !0 ! 0 ! F F " 4 4 <!ENTITY gamma "γ"> # 4 4 6 Z 78 ) 6Z 7 8 <head> <meta http-equiv="Content-Type" content="text/html; charset=jeu"/> … … … </head> " & & " " 67 8 ! # ! ! # # " " H ! >> # ! # ' 67 8 6 Z 7 8 # ! [ > > > B ) ; > < " & > > > 67 8 : 3 + * Exercices (1/2) H# ! 6Z 7 8 H; ( = ! ! ) >)> 9 ?;$ ' ) ! 6 Z 78 6 Z 78 # 67 8 : 3 6Z 7 8 > ! 0 % + 4 4 H H H ) Exercices (2/2) ) % " " # 5 ' # L " # )P H" ! ' # + # 67 8 : 3 F ! % 67 8 : 3 >)>VW)(CX ! ! > @D L H# 3 HB # H @ " # ? ) =( # ! N ! 00# # [B > 5 >! " " # 9 8 ! ' # N K 67 8 : 3 4 # N 00 00 5 # ? ) / " H > > ! > 0\# > > ! > 0\# '9 8 ! 0))))))> 3333 ! # " $ Note sur les noms des fichiers 8' 00 )> )> < 9 8 ) ^ # ' ) # # # "' '3 & # N )> ) 0 H" 00 # # > > ! > 0\# ! # Z ]19U8=<> KKK] )> ) # > > ! > 0\# ! )> ) % # H ' ' " ! ! P )> ' ! " # '9 8 #! # 67 8 ' )> ) ! '3 % C -