Version 9 d`Unicode - Stéphane Bortzmeyer
Transcription
Version 9 d`Unicode - Stéphane Bortzmeyer
Version 9 d’Unicode Stéphane Bortzmeyer <[email protected]> Première rédaction de cet article le 22 juin 2016 http://www.bortzmeyer.org/unicode-9-0.html —————————- Le 21 juin, la nouvelle version d’Unicode <http://blog.unicode.org/2016/06/announcing-unicode-standa html> est sortie, la 9.0. Une description officielle des principaux changements est disponible <http:// www.unicode.org/versions/Unicode9.0.0/> mais voici ceux qui m’ont intéressé particulièrement. (Il n’y a pas de changement radical.) Pour explorer plus facilement la grande base Unicode, j’utilise un programme qui la convertit en SQL <http://www.bortzmeyer.org/unicode-to-sql.html> et permet ensuite de faire des analyses variées. Faisons quelques requêtes SQL : ucd=> SELECT count(*) AS Total FROM Characters; total -------128237 Combien caractères sont arrivés avec la version 9 ? ucd=> SELECT version,count(version) FROM Characters GROUP BY version ORDER BY version; ... 8.0 | 7716 9.0 | 7500 7 500 nouveaux pile. Lesquels ? 1 2 ucd=> SELECT To_U(codepoint) AS Codepoint, name FROM Characters WHERE version=’9.0’; codepoint | name -----------+---------------------------------------------------------------------------... U+8BA | ARABIC LETTER YEH WITH TWO DOTS BELOW AND SMALL NOON ABOVE ... U+8E2 | ARABIC DISPUTED END OF AYAH ... U+23FB | POWER SYMBOL U+23FC | POWER ON-OFF SYMBOL U+23FD | POWER ON SYMBOL U+23FE | POWER SLEEP SYMBOL ... U+104D8 | OSAGE SMALL LETTER A U+104D9 | OSAGE SMALL LETTER AI U+104DA | OSAGE SMALL LETTER AIN ... U+17000 | TANGUT IDEOGRAPH-17000 U+17001 | TANGUT IDEOGRAPH-17001 U+17002 | TANGUT IDEOGRAPH-17002 ... U+1F921 | CLOWN FACE U+1F922 | NAUSEATED FACE U+1F923 | ROLLING ON THE FLOOR LAUGHING ... U+1F933 | SELFIE ... U+1F953 | BACON U+1F954 | POTATO U+1F955 | CARROT On trouve également des écritures entièrement nouvelles comme l’osage ou le tangoute, qui fait 91 % des nouveaux caractères de cette version. Et il y a bien sûr l’habituel lot d’emojis pour faire rire les réseaux sociaux (signe des temps, il y a maintenant un emoji pour selfie). Je ne sais pas pourquoi on ajoute des caractères arabes pré-composés comme le ”ARABIC LETTER YEH WITH TWO DOTS BELOW AND SMALL NOON ABOVE” au lieu de permettre sa composition à partir de caractères existants. On note aussi un caractère dont le nom indique qu’il est contesté... (Il existe déjà U+6DD, ”ARABIC END OF AYAH” mais on me souffle que le nouveau serait nécessaire au Pakistan.) On note qu’après un long lobbying <http://unicodepowersymbol.com/>, les symboles d’allumage et d’extinction de votre machine sont désormais dans Unicode. Si vous avez les bonnes polices de caractères, voici les caractères pris en exemple plus haut : [Caractère Unicode non montré 1 ] [Caractère Unicode non montré ] [Caractère Unicode non montré ] [Caractère Unicode non montré ] [Caractère Unicode non montré ] [Caractère Unicode non montré ] [Caractère Unicode non montré ] [Caractère Unicode non montré ] [Caractère Unicode non montré ] [Caractère Unicode non montré ] [Caractère Unicode non montré ] [Caractère Unicode non montré ] [Caractère Unicode non montré ] [Caractère Unicode non montré ] [Caractère Unicode non montré ] [Caractère Unicode non montré ] [Caractère Unicode non montré ] [Caractère Unicode non montré ] [Caractère Unicode non montré ] Il n’y a pas que l’ajout de nouveaux caractères, mais aussi quelques légers changements techniques. Par exemple, les règles de passage à la ligne (UAX #14 <http://www.unicode.org/reports/tr14/ tr14-37.html>) prennent désormais en compte les gens qui ont un signe $ dans leur nom (comme Travi$ Scott) et les règles IDN (UTS #46 <http://www.unicode.org/reports/tr46/tr46-17. html>) ont corrigé une bogue. 1. Car trop difficile à faire afficher par LATEX —————————http://www.bortzmeyer.org/unicode-9-0.html