Formats de texte

Transcription

Formats de texte
Fiches L2 :
Codage>Formats de texte
Codage
Formats de texte
•
•
Liens :
Codage > Codage numérique
Codage > Fichiers
Codage > Formats
Codage > Formats d’images
Web > Structuration de documents
Traitement de textes > Mise en forme
J’ai récupéré un fichier dans lequel tous les caractères accentués sont remplacés par des
symboles bizarres.
J’ai amené mon mémoire au format Word à la fac pour l’imprimer mais la mise en page
n’est plus la même que chez moi.
1. Texte brut et représentation des caractères
Le format le plus simple pour le codage de textes est celui dans lequel le fichier ne contient que la suite
de caractères qui constitue le texte sans aucune mise en forme, appelé format texte brut et
fréquemment associé à l’extension .txt. Ce format est pris en charge par un grand nombre
d’applications appelées éditeurs de texte parmi lesquelles Bloc-Notes (Windows), TextEdit (MacOS),
SciTE, emacs, NEdit, ... Le format texte brut est également pris en charge par la plupart des
applications de traitement de texte.
Le principe du codage des caractères est de définir une table dans laquelle chaque
caractère est associé à un code numérique unique.
Dans le cas le plus général chaque caractère est représenté sur
un octet (cf. Codage numérique) par le code correspondant
dans la table ASCII (American Standard Code for
Information Interchange). Cette table définit 128 caractères
numérotés de 0 à 127 (00000000 à 01111111 en binaire) qui
correspondent aux lettres de l’alphabet latin en minuscules et
majuscules, aux chiffres arabes de 0 à 9 et aux symboles de
ponctuation les plus courants, complétés de caractères
spéciaux dont l’espace et le retour chariot.
La table ASCII ne code ni les caractères accentués, ni
certains symboles de ponctuation comme le guillemet
français («), ni les caractères phonétiques ou issus
d’alphabets autres que latin (cyrillique, grec, arabe, chinois,
japonais, coréen …). Pour pallier cet inconvénient, des
codages étendus ont été définis, parmi lesquels la norme
UNICODE qui permet de coder sans ambigüité l’ensemble
Figure 1 - Table ASCII
des caractères existants sur 2 à 3 octets selon les versions.
Afin que les fichiers texte codés selon la norme UNICODE puissent être reconnus et interprétés comme
tels, ils comprennent un en-tête (cf. Formats) qui n’est pas affiché par les éditeurs de texte : les 3
premiers octets indiquent la version d’UNICODE utilisée.
De nombreuses autres normes de codage des caractères (non compatibles entre elle) ont été
développées avant UNICODE, ou en parallèle. Etant donné qu’ASCII code les caractères sur un octet
en n’utilisant que 7 bits sur les 8 disponibles, la plupart tirent parti de ce 8ème bit pour coder jusqu’à 128
caractères supplémentaires et notamment les caractères accentués.
2. Texte mis en forme
Le format texte brut ne permet de coder que des suites de caractères. Avec un tel format il est donc
impossible d’appliquer des mises en forme comme des caractères gras ou italique, des couleurs, ou
encore des typographies particulières (type et/ou taille de police), ainsi qu’une mise en page
(alignement des caractères, présentation en colonnes, dimensions et orientation des pages …).
Fiches L2 :
Codage>Formats de texte
Des formats spécifiques ont donc été développés, qui permettent de coder non seulement le contenu
textuel mais également mise en forme et mise en page. La plupart de ces formats utilisent des codes
spéciaux qui permettent d’attribuer des propriétés à des portions de texte. En général ces codes sont
également composés de caractères afin qu’un utilisateur expérimenté puisse les comprendre
indépendamment de l’utilisation d’une application dédiée.
2.1. Le format RTF (Rich Text Format)
Le format RTF est probablement le plus répandu des formats de texte mis en forme. Il s’agit d’un
format ouvert (cf. Format), reconnu par la quasi-totalité des logiciels de traitement de texte. C’est
notamment le format par défaut utilisé par les applications WordPad (Windows), TextEdit (MacOS) et
Ted (Unix), et il est également pris en charge par les traitements de texte plus élaborés comme Word ou
Open Office Writer. Dans ce format les codes de mise en forme sont introduits par le caractère \. Le
format RTF, au-delà de la mise en forme du texte, permet d’intégrer des images. Cependant la façon
dont sont codées ces images fait que les fichiers générés sont très volumineux.
2.2. Le format DOC (Microsoft Word)
Le format DOC est le format utilisé pour coder les documents générés par le traitement de texte
Microsoft Word. Au delà de la mise en forme qui peut également être codée au format RTF, ce format
permet de définir des styles qui peuvent être appliqués de façon systématique (cf. Document structuré),
et d’intégrer divers objets multimédia.
Il s’agit d’un format fermé (cf. Format), dont les caractéristiques ne sont pas accessibles librement.
Contrairement à la plupart des autres formats de texte mis en forme, il n’est pas possible d’interpréter
directement les codes de mise en forme générés par Word.
2.3. Le format ODT (Open Document Text)
Il s’agit d’un format ouvert dont les fonctionnalités sont similaires à celles du format DOC, qui est pris
en charge par le logiciel libre de traitement de textes Open Office Writer. Un document ODT est en fait
constitué d’un ensemble de fichiers au format XML (cf. Structuration de documents) qui décrivent le
contenu et les styles utilisés dans le document, regroupés dans une archive ZIP (cf. Compression).
2.4. Le format HTML (HyperText Markup Language)
Voir la fiche Structuration de documents
2.5. Le format PDF (Portable Document Format)
Le format PDF est un format ouvert mais pas interprétable directement, qui permet d’intégrer texte,
images matricielles et/ou vectorielles (cf. Formats d’images) et liens hypertexte en conservant
fidèlement la mise en forme et la mise en page originales quelques soient le système d’exploitation et
l’application utilisés. Ce format est donc particulièrement adapté aux travaux d’impression. Un
document PDF ne peut pas être créé de toutes pièces mais doit être généré à partir d’un document
source dans un autre format.
Références
•
•
•
•
•
Fichiers texte : http://fr.wikipedia.org/wiki/Fichier_texte
ASCII : http://fr.wikipedia.org/wiki/ASCII
Unicode : http://fr.wikipedia.org/wiki/Unicode
PDF : http://fr.wikipedia.org/wiki/Portable_Document_Format
LaTeX : http://www.commentcamarche.net/latex/latex-intro.php3
Terminologie
•
Format texte brut = format texte = format texte simple