Version 9 d`Unicode - Stéphane Bortzmeyer

Transcription

Version 9 d`Unicode - Stéphane Bortzmeyer
Version 9 d’Unicode
Stéphane Bortzmeyer
<[email protected]>
Première rédaction de cet article le 22 juin 2016
http://www.bortzmeyer.org/unicode-9-0.html
—————————-
Le 21 juin, la nouvelle version d’Unicode <http://blog.unicode.org/2016/06/announcing-unicode-standa
html> est sortie, la 9.0. Une description officielle des principaux changements est disponible <http://
www.unicode.org/versions/Unicode9.0.0/> mais voici ceux qui m’ont intéressé particulièrement.
(Il n’y a pas de changement radical.)
Pour explorer plus facilement la grande base Unicode, j’utilise un programme qui la convertit en SQL
<http://www.bortzmeyer.org/unicode-to-sql.html> et permet ensuite de faire des analyses
variées. Faisons quelques requêtes SQL :
ucd=> SELECT count(*) AS Total FROM Characters;
total
-------128237
Combien caractères sont arrivés avec la version 9 ?
ucd=> SELECT version,count(version) FROM Characters GROUP BY version ORDER BY version;
...
8.0
| 7716
9.0
| 7500
7 500 nouveaux pile. Lesquels ?
1
2
ucd=> SELECT To_U(codepoint) AS Codepoint, name FROM Characters WHERE version=’9.0’;
codepoint |
name
-----------+---------------------------------------------------------------------------...
U+8BA
| ARABIC LETTER YEH WITH TWO DOTS BELOW AND SMALL NOON ABOVE
...
U+8E2
| ARABIC DISPUTED END OF AYAH
...
U+23FB
| POWER SYMBOL
U+23FC
| POWER ON-OFF SYMBOL
U+23FD
| POWER ON SYMBOL
U+23FE
| POWER SLEEP SYMBOL
...
U+104D8
| OSAGE SMALL LETTER A
U+104D9
| OSAGE SMALL LETTER AI
U+104DA
| OSAGE SMALL LETTER AIN
...
U+17000
| TANGUT IDEOGRAPH-17000
U+17001
| TANGUT IDEOGRAPH-17001
U+17002
| TANGUT IDEOGRAPH-17002
...
U+1F921
| CLOWN FACE
U+1F922
| NAUSEATED FACE
U+1F923
| ROLLING ON THE FLOOR LAUGHING
...
U+1F933
| SELFIE
...
U+1F953
| BACON
U+1F954
| POTATO
U+1F955
| CARROT
On trouve également des écritures entièrement nouvelles comme l’osage ou le tangoute, qui fait
91 % des nouveaux caractères de cette version. Et il y a bien sûr l’habituel lot d’emojis pour faire rire
les réseaux sociaux (signe des temps, il y a maintenant un emoji pour selfie). Je ne sais pas pourquoi
on ajoute des caractères arabes pré-composés comme le ”ARABIC LETTER YEH WITH TWO DOTS
BELOW AND SMALL NOON ABOVE” au lieu de permettre sa composition à partir de caractères
existants. On note aussi un caractère dont le nom indique qu’il est contesté... (Il existe déjà U+6DD,
”ARABIC END OF AYAH” mais on me souffle que le nouveau serait nécessaire au Pakistan.) On
note qu’après un long lobbying <http://unicodepowersymbol.com/>, les symboles d’allumage et
d’extinction de votre machine sont désormais dans Unicode.
Si vous avez les bonnes polices de caractères, voici les caractères pris en exemple plus haut : [Caractère Unicode non montré 1 ] [Caractère Unicode non montré ] [Caractère Unicode non montré ]
[Caractère Unicode non montré ] [Caractère Unicode non montré ] [Caractère Unicode non montré ]
[Caractère Unicode non montré ] [Caractère Unicode non montré ] [Caractère Unicode non montré ]
[Caractère Unicode non montré ] [Caractère Unicode non montré ] [Caractère Unicode non montré ]
[Caractère Unicode non montré ] [Caractère Unicode non montré ] [Caractère Unicode non montré ]
[Caractère Unicode non montré ] [Caractère Unicode non montré ] [Caractère Unicode non montré ]
[Caractère Unicode non montré ]
Il n’y a pas que l’ajout de nouveaux caractères, mais aussi quelques légers changements techniques.
Par exemple, les règles de passage à la ligne (UAX #14 <http://www.unicode.org/reports/tr14/
tr14-37.html>) prennent désormais en compte les gens qui ont un signe $ dans leur nom (comme
Travi$ Scott) et les règles IDN (UTS #46 <http://www.unicode.org/reports/tr46/tr46-17.
html>) ont corrigé une bogue.
1. Car trop difficile à faire afficher par LATEX
—————————http://www.bortzmeyer.org/unicode-9-0.html