Quelques formats de fichiers courants

Transcription

Quelques formats de fichiers courants
SCI6052 Information documentaire numérique
Lucie Carmel, novembre 2007
Modifié novembre 2009
Quelques formats de fichiers courants
1
Fichiers en format texte (ou « fichiers texte »)
Extension habituelle : .txt
Les fichiers en format texte ne comportent que des codes de caractères conformes à un jeu de caractères
quelconque, p.ex. ASCII pur sur 8 bits, ANSI (ISO-Latin-1 = ISO-8859-1), Unicode ou autres. Ces fichiers
sont appelés « fichiers texte ». Tout fichier que n’est pas un fichier texte est un fichier « binaire ».
Les fichiers de paramétrage de logiciels (fichiers « .ini », antidictionnaires, listes de validation, etc.) et
« readme.txt » (« lisez-moi.txt ») joints aux logiciels d’application sont souvent des fichiers texte, et donc
lisibles (et modifiables, au besoin) avec un éditeur de fichiers texte de type « Bloc-notes ».
Les navigateurs du Web (Internet Explorer, Firefox, etc.) permettent de lire directement la plupart des
fichiers texte. S’il s’agit de fichiers trouvés sur le Web, on peut les sauvegarder localement et les
récupérer dans un éditeur de fichiers texte comme Bloc-notes ou un logiciel de traitement de texte comme
Word.
Parfois utilisés pour diffuser des articles en texte intégral, comptes rendus de conférence, périodiques
électroniques, livres, etc. Dans des dépôts de livres, on trouvera parfois des extensions de fichiers texte
non standard. Ex. Moon.jv pour le livre From the Earth to the Moon par Jules Verne.
1.1
Formats basés sur un format texte
Les fichiers dans les formats qui suivent sont des fichiers texte à part entière, mais respectent en plus des
règles additionnelles propres à un autre format.
•
Fichiers html – Fichiers texte – Extensions habituelles : .html et .htm
(Définition fournie par Yves Marcoux).
HTML (HyperText Markup Language ou Langage de balisage hypertextuel) désigne une famille de
formats utilisés pour la représentation d'information hypermédia. Un fichier HTML contient des balises
(c'est-à-dire, de courtes chaînes de caractères) décrivant la structure d'un document hypermédia, lequel
peut contenir des liens hypertextuels vers des ressources numériques quelconques, locales ou sur réseau
(intranet/Internet). Ces ressources peuvent notamment être d'autres fichiers HTML, des fichiers texte, des
images, des sons et des vidéos.
Comme tous les formats utilisant le balisage, les formats de la famille HTML sont basés sur un format
texte, c'est-à-dire que les fichiers HTML sont aussi des fichiers texte. Le jeu de caractères sous-jacent
peut varier, mais il s'agit en général d'ISO-Latin-1 (ISO-8859-1) ou d'Unicode-UTF-8.
Il existe plusieurs versions de HTML; il faut donc en général indiquer la version du langage HTML à
laquelle on réfère. Les deux versions les plus importantes sont HTML 4.01, la version la plus récente
normalisée par le W3C, et ISO-HTML, normalisé par ISO/IEC. Le plus répandu des deux est (de loin)
HTML 4.01. ISO-HTML est plus restrictif que HTML 4.01, mais entièrement compatible avec ce dernier.
HTML 4.01 est défini par la recommandation « HTML 4.01 Specification » du W3C, datant de décembre
1999 et disponible gratuitement au <http://www.w3.org/TR/html4/>. ISO-HTML est défini par la
Page 1 sur 6
spécification « ISO/IEC 15445:2000 Information technology -- Document description and processing
languages -- HyperText Markup Language (HTML) », datant de 2000 et vendue par ISO/IEC (91 CHF
[francs suisses]).
Les formats de la famille HTML sont à la base du Web. Les premières incarnations du Web utilisaient
exclusivement ces formats, qui sont encore les plus répandus sur le Web actuel. Les fichiers HTML de
toutes versions sont visualisables directement dans tous les navigateurs Web récents.
•
Fichiers xhtml – Fichiers texte – Extensions habituelles : .html et .xhtml
(Définition fournie par Yves Marcoux).
•
•
XHTML 1.0 (2nd edition): The Extensible HyperText Markup Language
– Recommandation du W3C de janvier 2000 (rév. août 2002)
– "A Reformulation of HTML 4 in XML 1.0"
– Basé sur HTML 4.01 et XML (et non SGML)
XHTML 1.1: Module-based XHTML
– Recommandation du W3C de mai 2001
Introduit la possibilité d’extensions modulaires (ex.: une norme séparée, XForms, pour les
formulaires)
XHTML 2.0 est en cours de développement.
Pour qu'un document soit valide XHTML, il doit comporter un type de déclaration (DOCTYPE) et un
encodage conforme aux spécifications du W3C.
•
Fichiers xml – Fichiers texte – Extension habituelle : .xml
(Définition fournie par Yves Marcoux)
XML (eXtensible Markup Language ou Langage de balisage généralisable) est un format général de
documents numériques permettant de représenter explicitement la structure logique de l'information, ce
qui favorise sa réutilisation. La structure logique de l'information est représentée à l'aide de balises (c'està-dire, de courtes chaînes de caractères) qui indiquent le début et la fin des éléments constitutifs du
document. On peut définir les balises utilisables pour une classe de documents via une DTD (Document
type definition ou Définition de type de documents) et/ou un schéma XML.
Comme tous les formats utilisant le balisage, XML est basé sur un format texte, c'est-à-dire que les
fichiers XML sont aussi des fichiers texte. Le jeu de caractères sous-jacent peut varier, mais il s'agit en
général d'Unicode-UTF-8. Les fichiers XML sont visualisables directement dans les versions les plus
récentes des principaux navigateurs Web.
Il existe deux versions de XML: XML 1.0 et XML 1.1, toutes deux normalisées par le W3C. XML 1.0 a été
défini pour la première fois en février 1998 et est demeuré essentiellement inchangé depuis. Il est
actuellement défini par la recommandation « Extensible Markup Language (XML) 1.0 (Third Edition) » du
W3C, datant de février 2004 et disponible gratuitement au <http://www.w3.org/TR/2004/REC-xml20040204/>. XML 1.1 est défini par la recommandation « Extensible Markup Language (XML) 1.1 »,
datant aussi de février 2004 et disponible gratuitement au <http://www.w3.org/TR/2004/REC-xml1120040204/>. Les différences entre les deux versions sont mineures. La plus répandue est (de loin) la
version 1.0.
• Fichiers PostScript – Fichiers texte – Extension habituelle : .ps
PostScript est un langage de définition de page mis au point par Adobe en 1985. Couramment utilisé pour
l'impression laser. Tient compte de la mise en page du document. Décrit les éléments de texte et
graphiques qui composent une page.
Pour voir le contenu des fichiers .ps à l'écran, on doit installer sur le poste un utilitaire PostScript.
GhostScript interprète le langage PostScript et GSView est l'interface graphique de GhostScript. Les deux
logiciels doivent être installés pour voir les fichiers .ps à l'écran.
Page 2 sur 6
2
Fichiers binaires
Tout fichier que n’est pas un fichier texte est appelé fichier « binaire ».
• Fichiers Portable Document Format - Fichiers binaires - Extension habituelle : .pdf
Créé et contrôlé par Adobe. Développé initialement à partir du langage PostScript. Intègre les couleurs,
les graphiques, les fontes, les liens URL inclus dans le document.
La lecture des fichiers .pdf demande l'installation d'un lecteur de fichiers .pdf sur le poste. Adobe Acrobat
Reader est gratuit.
Pour la création de fichiers PDF on a besoin du logiciel Acrobat d'Adobe (qui lui n'est pas gratuit) ou de
convertisseurs gratuits tels que PDF Creator ou PDF995.
• Fichiers compressés - Fichiers binaires – Extensions courantes : .zip, .rar, .Z, .tar. Z, .gz
Sur les sites FTP, on trouve des fichiers compressés pour sauver de l'espace disque et accélérer le
transfert des fichiers.
Les fichiers compressés sont des fichiers binaires. Ils doivent être décompressés pour être lus.
Ces fichiers doivent être transférés comme fichiers binaires et doivent être décompressés avec un logiciel
de décompression approprié (par exemple, Winzip en environnement Windows ou l’outil de compression
et d’extraction intégré dans Windows XP).
2.1
Formats pour images fixes (fichiers binaires)
Carte vidéo + moniteur + logiciel appropriés requis pour rendre à l'écran la qualité des images visualisées.
Les logiciels tels que Paint (fourni avec Windows), Paint Shop Pro ou PhotoShop permettront d'afficher,
éditer, imprimer ou convertir des images en format .bmp et autres.
Il y a deux familles d’images fixes : les images matricielles et les images vectorielles.
Les images matricielles sont composées de pixels (picture elements) . Chaque pixel correspond à un
point, soit la plus petite unité de mesure à l'écran. Plus de pixels = image de qualité supérieure.
Le nombre de pixels affichés détermine la résolution de l'écran (par exemple, une résolution de 1024 x
768 soit 1024 pixels sur l'axe horizontal x 768 pixels sur l'axe vertical).
Le nombre de couleurs affiché est mesuré en fonction du nombre de bits utilisés pour enregistrer la
couleur de chaque pixel.
16 couleurs
256 couleurs
65 536 couleurs
Plus de 16,7 millions de couleurs
= 4 bits/pixel
= 8 bits/pixel
= 16 bits/pixel
= 24 bits/pixel
Les images vectorielles sont représentées par des formes géométriques qui sont définies par des
formules mathématiques (un rectangle est défini par deux points, un cercle par un centre et un rayon, une
courbe par plusieurs points et une équation).
Formats pour images matricielles (fichiers binaires)
•
Graphic Interchange Format - Extension .gif
Page 3 sur 6
Développé par Compuserve, l’algorithme de compression qu’utilise ce format de fichiers était breveté par
Unisys de 1994 jusqu’en octobre 2006, date à laquelle le format gif est devenu du domaine public. Vu
directement par les navigateurs du Web. Peut enregistrer 8bits/pixel soit 256 couleurs ou moins
Approprié pour des graphiques comportant peu de couleurs. Permet de monter des gifs animés (format gif
89a). Supporte la transparence.
• Joint Photographic Expert Group - Extension .jpg
Norme de compression d'image. Standard ISO 10918.
Images en couleurs ou en noir et blanc.
Approprié pour photographies.
24 bits/pixel soit 16 millions de couleurs
Vu directement par les navigateurs du Web.
• Portable Network Graphics - Extension .png
Format graphique non propriétaire recommandé par le W3C développé pour le Web. Vise à remplacer le
format gif. Définition en 24 bits pour un affichage en 16 millions de couleurs. Supporte la transparence et
la translucidité mais pas les images animées. Format d'image pour diffusion sur le Web. Supporté par
Internet Explorer 5.x mais pas par Netscape 4.x.
• Microsoft Windows Bitmap File Format - Extension .bmp
Format de fichier développé par Microsoft et IBM donc très répandu sur la plate-forme Windows.
Format pour images vectorielles
• SVG - Scalable vector graphics – Extension habituelle : .svg
SVG est une recommandation du W3C, basée sur XML, qui permet de décrire des dessins vectoriels en
2D.
Le format SVG est basé sur le format XML, lui-même basé sur un format texte. Les fichiers
SVG sont donc des fichiers texte, et non des fichiers binaires.
2.2
Fichiers sons ou musicaux (fichiers binaires)
• Musical Instrument Digital Interface - Fichiers MIDI – Extensions habituelles .mid et .rmi
La plupart des cartes de son des ordinateurs ont un processeur qui est l'équivalent d'un petit synthétiseur
musical contenant une banque de 128 instruments ou timbres différents.
Le fichier MIDI est comme une partition qui sera jouée par ce petit synthétiseur; il contient des instructions
dans un format normalisé MIDI. Midi est en fait le nom d'un protocole de communication développé par
les principaux manufacturiers d'instruments de musique (Roland, Yamaha, Korg) en 1983. Il permet aux
appareils électroniques d'interagir et de se synchroniser entre eux. Ce qui est intéressant avec ce genre
de fichier, c'est qu'il est très léger. Un petit fichier de seulement 20k vous donnera une pièce musicale
d'une minute environ tandis qu'un fichier .wav ou .aiff pourra « peser » facilement 10 Mo pour la même
durée. (un mp3, environ 1.5 Mo).
• Real Audio - Extension habituelle .ra ou .ram
Technologie développée par Progressive Networks. Demande d'installer un programme client sur le poste
et un logiciel serveur sur le serveur Web.
Permet la lecture en transit de fichiers audio sur Internet (audio streaming) . Pour compenser les délais
de transmission et conserver la fluidité du son, le logiciel client de lecture de fichiers Real Audio retient les
données quelques secondes en mémoire tampon avant de les transmettre aux hauts-parleurs.
(OLF, http://w3.olf.gouv.qc.ca/banque/affichage.asp
•
MP3 ou MPEG1/2 Audio Layer 3 - Extension habituelle .mp3
Page 4 sur 6
Format qui permet la compression d'une séquence sonore dans un très petit fichier (environ1/4 à 1/12 de
la taille du fichier original). Un logiciel tel que Windows Media Player intégré à Windows , RealPlayer ou
iTunes doit être installé sur le poste pour lire les fichiers .mp3. La perte de qualité du format mp3 n’est à
peu près pas audible pour l'oreille humaine.
• Wave Form Audio File Format - extension habituelle .wav
Standard de son de Windows. Représentation numérique d'un signal analogique. Créé par Microsoft.
Gros fichiers car non compressés et sans perte de qualité s’il utilise l’encodage PCM (Pulse Code
Modulation). 1 minute = environ 10 Mo
• Windows Media Audio - extension habituelle .wma
Format de fichier audio développé par Microsoft. Le fichier .wma a une taille plus petite que le fichier
MP3. Format lu entre autres par Windows Media Player.
• Audio Interchange File Format - AIFF par Apple - Extension habituelle .aif ou .aiff
Utilisé en environnement Apple. Semblable à Wave
2.3
Formats pour images en mouvement (fichiers binaires)
Fichiers multimédias pouvant comporter du texte, des sons, de la musique, des animations.
MPEG et ses différentes versions 1, 2 et 4 - Moving Picture Experts Group - Extension habituelle
.mpg
Norme pour vidéo numérique et compression audio numérique développée par 70 compagnies incluant
Sony, Philips, Apple, etc.
•
• Quicktime - Extensions habituelles .qt et .mov (PC et Apple)
Norme ISO créée à l'origine par Apple. Combine son, vidéo, animation.
• Audio Video Interleaved - Extension habituelle .avi
Norme vidéo pour Microsoft Windows
• FLV - Flash Video – Extension habituelle .flv
Format de fichier utilisé sur Internet pour diffuser des vidéos via le lecteur Adobe Flash Player. Le contenu
FLV peut être incorporé aux fichiers SWF. Ce format est utilisé sur divers sites de partage de vidéos sur
Internet tel que YouTube.
• SMIL - Synchronized Multimedia Integration Language - Extensions habituelles .smi ou .smil
Langage de balisage basé sur XML permettant de décrire des présentations multimédias interactives, de
synchroniser des fichiers de nature différente pour en faire des objets multimédias aptes à être intégrés
dans une page Web. Développé par un groupe coordonné par le World Wide Web Consortium (W3C).
Le format SMIL est basé sur le format XML, lui-même basé sur un format texte. Les fichiers
SMIL sont donc des fichiers texte, et non des fichiers binaires.
•
SWF - Shockwave Flash - Extension habituelle .swf
Les fichiers Flash, généralement appelés "animation Flash" sont au format .swf. Ils peuvent être inclus
dans une page Web et lus par le lecteur Flash du navigateur, ou bien interprétés indépendamment dans
le lecteur Flash.
2.4
•
Logiciels d'application distribués sur le Web (fichiers binaires)
Logiciels commerciaux - Payants
Page 5 sur 6
•
Partagiciels (shareware) - Logiciel sur lequel le programmeur conserve ses droits d'auteur, qui est
distribué gratuitement à l'essai et pour lequel on doit verser une certaine somme en cas d'utilisation
durable. (OLF, http://w3.olf.gouv.qc.ca/banque/)
•
Gratuiciels (freeware) - Logiciel sur lequel le programmeur conserve ses droits d'auteur, mais ne
réclame pas leur paiement, et qui peut donc être copié et distribué gratuitement (OLF,
http://w3.olf.gouv.qc.ca/banque)
•
Publiciels ou logiciels du domaine public (public domain software) - Logiciel pour lequel le
programmeur a renoncé à ses droits d'auteur, et qui peut donc être copié, distribué, voire même
transformé librement. (OLF, http://w3.olf.gouv.qc.ca/banque/)
Voir aussi licences Creative commons http://fr.wikipedia.org/wiki/Creative_Commons et
http://fr.wikipedia.org/wiki/Licence_Creative_Commons.
«Leur but est de fournir un outil juridique qui garantit à la fois la protection des droits de l'auteur d'une
œuvre artistique et la libre circulation du contenu culturel de cette œuvre, ceci afin de permettre aux
auteurs de contribuer à un patrimoine d'œuvres accessibles dans le « domaine public » (notion prise au
sens large).»
La plupart de ces types de logiciels sont distribués sous forme de fichiers compressés .zip ou .exe.
Si ils sont distribués comme fichier .zip, on doit les décompresser avec un outil tel que Winzip ou l’outil de
compression intégré à Windows XP.
Si ils sont distribués comme des fichiers .exe, on n'a qu'à cliquer sur le fichier pour le décompresser. En
séquence, créer un dossier dans lequel on copie le fichier .exe; faire une détection de virus; cliquer sur le
fichier .exe pour le décompresser; exécuter le programme d'installation souvent nommé setup.exe.
Logiciels de conversion de fichiers
OmniFormat : utilitaire gratuit de conversion de fichiers à installer localement (75 formats reconnus). Voir
http://www.omniformat.com/download.html.
Zamzar – Free online file conversion : conversion de fichier via un site Web et réception des fichiers
convertis par courriel. Voir http://www.zamzar.com/.
3
Ressources à consulter pour en savoir plus
Comment ça marche. Encyclopédie informatique libre. <http://www.commentcamarche.net/>.
FILExt. The File Extension Source. <http://filext.com/>
GIRI - Guide d'initiation à la recherche dans Internet. 1.4. Principaux formats de fichiers.
<http://www.bibl.ulaval.ca/vitrine/giri/mod1/1_4.htm>. Dernière mise à jour : 19 juin 2003.
Office québécois de la langue française. Grand dictionnaire terminologique.
<http://w3.granddictionnaire.com/>.
Shannon, Ross. Internet File Formats. Dernière mise à jour : 26 février 2007.
<http://www.yourhtmlsource.com/starthere/fileformats.html>.
Webopedia : Online Dictionary for Computer and Internet technology. <http://www.webopedia.com/>.
Wikipédia. L’encyclopédie libre. Liste d’extensions de fichiers.
<http://fr.wikipedia.org/wiki/Liste_d'extensions_de_fichiers>.
Whatis?com. < http://whatis.techtarget.com/>.
Lexique traitant des technologies de l'information. Plusieurs acronymes développés.
Page 6 sur 6