1 Les jeux de caractères en XML et (X)HTML – la norme Unicode

Transcription

1 Les jeux de caractères en XML et (X)HTML – la norme Unicode
Problème : utilisation de différents alphabets
dans les documents informatiques
Les jeux de caractères en XML et
(X)HTML – la norme Unicode
• Systèmes d’écriture
– alphabétiques : dizaines de signes
• souvent phonétiques (origine commune ? Ougarit ?)
• ex. : alphabet latin (et dérivés), grec, arabe, hébreu
– syllabiques : centaine de signes
• ex. : syllabaires japonais ou inuit
Andrei Popescu-Belis
TIM / ETI, Université de Genève
– idéographiques : dizaines de milliers de signes
• chronologiquement les plus anciens, « signes
mots »
• ex. : idéogrammes chinois/japonais
Cours n°5
• Comment les utiliser dans les documents ?
• Comment être sûr qu’ils sont affichés correctement ?
Comment les ordinateurs affichent-ils
les caractères ?
Définitions
.
%
%
!
$
&
/
#
" #
%
'
(
!
%
'
%
*+
,
*++ +
!
%
()
++
'
1
0
%
&
%
2
"
%
!3
-
Remarques
4
Trois jeux de caractères importants
9:;,:<==
#
$
%
"
&
%
?
(
67 8
%
!
! 5
"'
@ =:A
B
+*
#
=:A;$$+C;
!
(
&
'A
! /
9
%
#
!
%
=:A;$$+C;
*
%
>
=:A;8, =D;
!
<
$ 3
'
=:A;$$+C;
" +
E
>
%
F
!
+
>
9 ?;$ 9<:; 9<:; *
>
*
La norme Unicode
9 &
Historique de la norme Unicode
%
<
%
)
"
4
&
%
%
)
H
%
"
"
3
'
9
)
>)>
<.I
!
3
)
"
J
<
00555>
00555>
K
5 @
K
@
9
2 =:A A !> >
G *+'+ *
:
9
L
L
L
>
->
+>
CC
CC
CC*
>!
%
B
)B
*
>
>
>
>
>
->
+>
*-*
%
%
%
-
$'
C*' $
C$'$$-
*
9
9
9
9
9
9
9
> !0
%
CC
=:A0=(<
G <4
G =:A
G =:A
G =:A
G =:A
G =:A
!
"
=:A *-*;
*-*;
*-*; 2
*-*;
*-*;
*-*
#
/
/
Utilisation des jeux de caractères
dans les traitements de texte
8
!
@
M
B '
&
$
Solution : déclaration d’encodage en XML
67 8 G
"
8
'
'
)
&
%
! G'
3
N
!
#
!
'
#
#
!
K
5
8'
()
O!
!
'
1
) 2
%
M
!
!
F 67 8
%
%
=
;; #
'
)
!
<?xml encoding="UTF-8"?>
<?xml encoding="ISO-8859-1"?>
9 ?;$
'
!
#
F
Q "
>
'
'
!
F
P
#
!
>
)
C
Comment enregistrer un fichier XML
avec un encodage précisé ?
67 8 : 3
?
(
R(
!R J
!
)
F
3
'
#
#
#!
) )
'
!
! R(
!
@ # B
#!
,
! R<
'
!
&
'
!
,
! R(
! & " 'N "
#
%
5
,
!
7 :K
D
Pour vérifier l’encodage réel d’un
document au format XML ou texte
%
"
#
'
!
' 3
%
#!
#
'
K
'
!
)
'
!
D
,D:=SG
T9
SG9<:; 09 ?; *T
9
!
SG9 ?; *U(T 9 ?;$
K
) S,D:=T ) 7 :;4A: ) 9
S9<:; T J
?
)
A #
# 7 :K
!
)
'
"
F
!
@ )
!
'
H
B
Insertion de caractères spéciaux
dans les documents XML
9
%
<
0
Déclaration de l’encodage pour les
documents XHTML et HTML
#
6Z 7 8
'
%
'
!
9
Z 78
67 8 : 3
9
'
VW) +UX
&lt; <
&apos; '
&gt; >
"
Y
4
VW* X
% 9
#
#
(
!
& )
'
Insertion de caractères spéciaux
dans les fichiers (X)HTML
9
'
#
0
'
9
>)>VW*
4 4
• &eacute;
&amp;
6 Z 78
>)>
&otilde;
&uuml;
&copy;
&lt;
&oelig;
&gamma;
=:A;8, =D;
3
>
'
%
)
00555>
5 > !0 0 (<;
- 0! 0
00555>
5 > !0 0)
04 40)
;
; 3
>
!
4 4
"
@ ( 3Z
%
!
!
'
"
"
"
X VW) +UX
"
)
%
)
(
!
#
"
F
9:;,:<==
;
'
!
-
Conclusion
67 8
%
'
#
9 ?;$
=:A;$$+C;
00555> > !0 !
0
!
F
F "
4 4
<!ENTITY gamma "&#x3B3;">
#
4 4
6 Z 78
)
6Z 7 8
<head>
<meta http-equiv="Content-Type"
content="text/html; charset=jeu"/>
… … …
</head>
"
&amp; &
&quot; "
67 8
!
#
!
!
#
#
"
"
H
!
>>
#
! #
'
67 8 6 Z 7 8
#
!
[
>
>
>
B
)
;
>
<
"
&
>
>
>
67 8 : 3
+
*
Exercices (1/2)
H#
! 6Z 7 8
H;
(
=
!
!
)
>)>
9 ?;$
'
)
!
6 Z 78
6 Z 78
#
67 8 : 3
6Z 7 8 >
!
0
%
+
4 4
H
H
H
)
Exercices (2/2)
)
%
"
"
#
5
'
#
L
" #
)P
H"
! '
#
+
# 67 8 : 3
F
!
%
67 8 : 3
>)>VW)(CX
!
!
>
@D
L
H#
3 HB #
H
@
"
# ?
) =(
#
! N
!
00#
#
[B
>
5 >!
"
"
#
9 8
!
'
#
N
K
67 8 : 3
4 # N
00
00
5
# ?
)
/
" H
> > ! > 0\#
> > ! > 0\#
'9 8
! 0))))))>
3333
! #
"
$
Note sur les noms des fichiers
8'
00
)>
)>
<
9 8
)
^
#
' )
#
#
#
"'
'3
&
#
N
)>
)
0
H"
00
#
#
> > ! > 0\#
!
#
Z ]19U8=<>
KKK]
)>
)
#
> > ! > 0\#
!
)>
)
%
#
H
'
'
"
!
! P
)>
'
!
"
#
'9 8
#!
#
67 8
'
)>
)
!
'3
%
C
-

Documents pareils