Formats de texte
Transcription
Formats de texte
Fiches L2 : Codage>Formats de texte Codage Formats de texte • • Liens : Codage > Codage numérique Codage > Fichiers Codage > Formats Codage > Formats d’images Web > Structuration de documents Traitement de textes > Mise en forme J’ai récupéré un fichier dans lequel tous les caractères accentués sont remplacés par des symboles bizarres. J’ai amené mon mémoire au format Word à la fac pour l’imprimer mais la mise en page n’est plus la même que chez moi. 1. Texte brut et représentation des caractères Le format le plus simple pour le codage de textes est celui dans lequel le fichier ne contient que la suite de caractères qui constitue le texte sans aucune mise en forme, appelé format texte brut et fréquemment associé à l’extension .txt. Ce format est pris en charge par un grand nombre d’applications appelées éditeurs de texte parmi lesquelles Bloc-Notes (Windows), TextEdit (MacOS), SciTE, emacs, NEdit, ... Le format texte brut est également pris en charge par la plupart des applications de traitement de texte. Le principe du codage des caractères est de définir une table dans laquelle chaque caractère est associé à un code numérique unique. Dans le cas le plus général chaque caractère est représenté sur un octet (cf. Codage numérique) par le code correspondant dans la table ASCII (American Standard Code for Information Interchange). Cette table définit 128 caractères numérotés de 0 à 127 (00000000 à 01111111 en binaire) qui correspondent aux lettres de l’alphabet latin en minuscules et majuscules, aux chiffres arabes de 0 à 9 et aux symboles de ponctuation les plus courants, complétés de caractères spéciaux dont l’espace et le retour chariot. La table ASCII ne code ni les caractères accentués, ni certains symboles de ponctuation comme le guillemet français («), ni les caractères phonétiques ou issus d’alphabets autres que latin (cyrillique, grec, arabe, chinois, japonais, coréen …). Pour pallier cet inconvénient, des codages étendus ont été définis, parmi lesquels la norme UNICODE qui permet de coder sans ambigüité l’ensemble Figure 1 - Table ASCII des caractères existants sur 2 à 3 octets selon les versions. Afin que les fichiers texte codés selon la norme UNICODE puissent être reconnus et interprétés comme tels, ils comprennent un en-tête (cf. Formats) qui n’est pas affiché par les éditeurs de texte : les 3 premiers octets indiquent la version d’UNICODE utilisée. De nombreuses autres normes de codage des caractères (non compatibles entre elle) ont été développées avant UNICODE, ou en parallèle. Etant donné qu’ASCII code les caractères sur un octet en n’utilisant que 7 bits sur les 8 disponibles, la plupart tirent parti de ce 8ème bit pour coder jusqu’à 128 caractères supplémentaires et notamment les caractères accentués. 2. Texte mis en forme Le format texte brut ne permet de coder que des suites de caractères. Avec un tel format il est donc impossible d’appliquer des mises en forme comme des caractères gras ou italique, des couleurs, ou encore des typographies particulières (type et/ou taille de police), ainsi qu’une mise en page (alignement des caractères, présentation en colonnes, dimensions et orientation des pages …). Fiches L2 : Codage>Formats de texte Des formats spécifiques ont donc été développés, qui permettent de coder non seulement le contenu textuel mais également mise en forme et mise en page. La plupart de ces formats utilisent des codes spéciaux qui permettent d’attribuer des propriétés à des portions de texte. En général ces codes sont également composés de caractères afin qu’un utilisateur expérimenté puisse les comprendre indépendamment de l’utilisation d’une application dédiée. 2.1. Le format RTF (Rich Text Format) Le format RTF est probablement le plus répandu des formats de texte mis en forme. Il s’agit d’un format ouvert (cf. Format), reconnu par la quasi-totalité des logiciels de traitement de texte. C’est notamment le format par défaut utilisé par les applications WordPad (Windows), TextEdit (MacOS) et Ted (Unix), et il est également pris en charge par les traitements de texte plus élaborés comme Word ou Open Office Writer. Dans ce format les codes de mise en forme sont introduits par le caractère \. Le format RTF, au-delà de la mise en forme du texte, permet d’intégrer des images. Cependant la façon dont sont codées ces images fait que les fichiers générés sont très volumineux. 2.2. Le format DOC (Microsoft Word) Le format DOC est le format utilisé pour coder les documents générés par le traitement de texte Microsoft Word. Au delà de la mise en forme qui peut également être codée au format RTF, ce format permet de définir des styles qui peuvent être appliqués de façon systématique (cf. Document structuré), et d’intégrer divers objets multimédia. Il s’agit d’un format fermé (cf. Format), dont les caractéristiques ne sont pas accessibles librement. Contrairement à la plupart des autres formats de texte mis en forme, il n’est pas possible d’interpréter directement les codes de mise en forme générés par Word. 2.3. Le format ODT (Open Document Text) Il s’agit d’un format ouvert dont les fonctionnalités sont similaires à celles du format DOC, qui est pris en charge par le logiciel libre de traitement de textes Open Office Writer. Un document ODT est en fait constitué d’un ensemble de fichiers au format XML (cf. Structuration de documents) qui décrivent le contenu et les styles utilisés dans le document, regroupés dans une archive ZIP (cf. Compression). 2.4. Le format HTML (HyperText Markup Language) Voir la fiche Structuration de documents 2.5. Le format PDF (Portable Document Format) Le format PDF est un format ouvert mais pas interprétable directement, qui permet d’intégrer texte, images matricielles et/ou vectorielles (cf. Formats d’images) et liens hypertexte en conservant fidèlement la mise en forme et la mise en page originales quelques soient le système d’exploitation et l’application utilisés. Ce format est donc particulièrement adapté aux travaux d’impression. Un document PDF ne peut pas être créé de toutes pièces mais doit être généré à partir d’un document source dans un autre format. Références • • • • • Fichiers texte : http://fr.wikipedia.org/wiki/Fichier_texte ASCII : http://fr.wikipedia.org/wiki/ASCII Unicode : http://fr.wikipedia.org/wiki/Unicode PDF : http://fr.wikipedia.org/wiki/Portable_Document_Format LaTeX : http://www.commentcamarche.net/latex/latex-intro.php3 Terminologie • Format texte brut = format texte = format texte simple