XML - issco - Université de Genève

Transcription

XML - issco - Université de Genève
Documents Structurés Multilingues (XML)
2010
Maria Georgescul
ETI, Université de Genève
Plan du cours n°1
• Qu’est-ce que XML ?
• Eléments d'un document XML
Qu’est-ce que XML et pourquoi cela peut vous intéresser?
Cours n°1
http://moodle.unige.ch
• Bref historique d’XML
• Objectifs du cours d’XML
• Pourquoi XML peut vous intéresser ?
Maria Georgescul
Maître Assistante, TIM, ETI,
Université de Genève
http://www.issco.unige.ch/staff/mariag/index.html
[email protected]
Bureau 6336
• Organisation du cours; Evaluation des connaissances
2
Qu’est-ce que XML ? (1/2)
•
Un premier exemple en XML
eXtended Markup Language (XML)
–
conçu pour permettre la structuration, le stockage et
la gestion de différentes sortes de données
–
format qui vise à être expressif et indépendant des
plates-formes et des logiciels
balise avec
un attribut
balise = élément = unité sémantique utilisée pour
l'enrichissement de l’'information textuelle
3
Qu’est-ce que XML ? (2/2)
•
4
Exemple
« eXtended Markup Language » (“langage de
balisage extensible”)
Langage de balisage
–
–
•
balises = unités sémantiques placés dans le corps d’un
document afin d’en délimiter et d’en étiqueter les différentes
parties ainsi que les liens qui existe entre elles
Ex: HTML (« HyperText Markup Language »)
XML = méta-langage = langage extensible
–
ensemble de règles permettant la création de langages de
balisage personnalisés pour une certaine application
Documents structurés
utiliser des balises descriptives pour coder la
structure d’un document (multilingue)
5
6
1
Documents Structurés Multilingues (XML)
2010
Maria Georgescul
ETI, Université de Genève
Eléments d'un document XML
XML - bref historique (1/2)
• En-tête: la déclaration XML débute par les cinq caractères
<?xml, suivis d’un certain nombre de définitions de propriétés
et se termine par le deux caractères ?>
Ex: <?xml version="1.0"?>
– la propriété version définit le numéro de la version XML
• Une suite d’éléments : balises + texte
– Des balises qui définissent le début et la fin d’un ensemble de
texte et de balises :
<question> et </question>
– Des balises sans attributs :
1960
GenCode
1979
GML
1986
SGML
1992
1997
<niveau> Débutant </niveau>
application
HTML
sous-ensemble
XML
XML facilite
l’interconnexion des
applications
– Une balise avec un attribut :
<qr id="1">
– Liens :
2000
• Le contenu de l’attribut fait le lien avec un fichier:
<graphique file_ref="smiley.pict"/>
7
8
Bref historique (2/2)
•
•
•
XML aujourd’hui
SGML (Standard Generalized Markup Language)
– successeur de GML (Generalized Markup Language)
• GML - langage mis au point par IBM en 1979
– développé par le comité de traitement de l’information de l’ANSI
(American National Standards Institute)
– publié en 1986 comme norme ISO 8879
HTML (HyperText Markup Language)
– application de SGML
– début des années 1990 : le langage des pages web
– seulement intéressé par l’aspect graphique des documents
hypertexte
XML
– 1996: initiative visant à alléger SGML
– mêmes principes que SGML (structuration sémantique des fichiers)
– organisme fédérateur: W3C (World Wide Web Consortium):
www.w3.org
•
Standard universel et évolutif (recommandé par W3C):
– Spécifications ouvertes, format transparent
• version 1.0: Février 1998
http://www.w3.org/TR/xml/
• version 1.1, deuxième édition : Août 2006
http://www.w3.org/TR/xml11/
Différence principale de la version 1.1 vs. version 1.0: exigences
des caractères permis pour les noms des éléments et d’attributs
Nombreux technologies associés: DTD, XSLT, CSS
Nombreuses applications, c.-à-d. particularisations des balises à un
problème précis
– Exemples:
http://xml.coverpages.org/xmlApplications.html
• Plus de 400 membres: http://www.w3.org/Consortium/Member/List
9
10
XHTML – successeur de HTML
XML vs. HTML
• XML :
Noms de balises à définir selon les besoins
XML peut accommoder des besoins spécifiques (e.g.
linguistiques, mathématiques)
1960
GenCode
1979
GML
1986
SGML
application
• HTML
1992
Noms de balises fixés en vue de l’affichage (spécifiques
au vendeur) et pas pour la structure ou la sémantique du
contenu
• XML:
• Syntaxe des balises: stricte
• HTML :
• Syntaxe des balises: assez tolérante, dépend du
navigateur
1997
sous-ensemble
HTML
balises
XML
syntaxe
2000
11
XHTML 1.0 est une
reformulation de
HTML 4 en
appliquant la syntaxe
de XML 1.0
XHTML
eXtensible HyperText Markup
Language
http://www.w3.org/TR/xhtml1/
12
2
Documents Structurés Multilingues (XML)
2010
Maria Georgescul
ETI, Université de Genève
« Le couteau suisse du structuration XML »
Objectifs du cours d’XML (1/2)
•
•
DTD
CSS
Syntaxe
Support des
caractères spéciaux
XML
Comprendre le métalangage XML
– la bonne formation des documents XML
– l'encodage des caractères
Comprendre et utiliser les technologies souvent associés à XML afin
de:
– faire comprendre votre document XML à des tiers : DTD
(Document Type Definition)
– décrire la présentation des documents XML: CSS (Cascading
Style Sheets)
– transformer des documents XML: XSLT (XML Stylesheet
Transformation Language)
– trouver des données à l’intérieur de documents XML: XPath
– éviter les conflits entre noms de balises pour différentes
applications: espaces de noms
13
Pourquoi XML peut vous intéresser ?
Objectifs du cours d’XML (2/2)
•
14
• Structurer l’information de manière non-ambiguë
• Rendre explicite le contenu des documents
• Traiter l’information structurée en XML grâce aux nombreux outils existants
• Echanger de l’information entre humains et/ou entre programmes
informatiques
Connaître les standards basés sur XML pour le traitement
multilingue, c.-à-d. :
– la gestion de pages web multilingues:
• XHTML (eXtensible HyperText Markup Language)
– l’annotation de textes:
• XCES (XML Corpus Encoding Standard)
– la localisation:
• XLIFF (XML Localization Interchange File Format)
– la terminologie:
• XLT (XML representation of Lexicons and Terminologies)
– les lexiques électroniques:
• OLIF (Open Lexicon Interchange Format)
– les mémoires de traduction:
• TMX (Translation Memory eXchange)
• Dans quelles situations utilisons-nous XML?
Traducteur
• Quels types d'applications utilisent XML?
• Gestion de sites web multilingues
• Gestion de fiches terminologiques
• Échange des mémoires de traduction
• Divers logiciels pour le traducteur utilisent XML
15
16
Gestion de sites web multilingues
Gestion de fiches terminologiques
Fichiers
XML ou
XHTML
• Seppälä , Selja, “Composition et formalisation conceptuelles
de la définition terminographique”, ETIDEA 16 (ETI :
mémoires trad.), Ecole de traduction et d'interprétation,
Université de Genève.
Traducteurs
Gestion de l’information fournie par un
programme informatique (pour faciliter une
analyse ultérieure):
• Bircher, Beatrice, “Systran versus Google translate (GT) – the
performance of two MT Systems in Query Translation”,
ETIMA 30 (ETI : mémoires), Ecole de traduction et
d'interprétation, Université de Genève
17
18
3
Documents Structurés Multilingues (XML)
2010
Maria Georgescul
ETI, Université de Genève
Exemples d’outils compatible TMX
Échange des mémoires de traduction
SDL Trados
Traducteur
Traducteur
Outil X
non-compatible
TMX
XSLT
MultiTrans
Déjà Vu X
Olifant
Across
OmegaT
Catalyst
Fichiers
XML
(TMX)
Rainbow
Déjà Vu X
Heartsome
Traducteur
CSS
ou
XSLT
Traducteur Outil Y
non-compatible
TMX
Trados
SDLX
Lingotek
MemoQ
Similis
Wordfast
Star Transit
SDLX
Traducteur
(X)HTML
19
20
Prérequis
Postrequis
• Au terme du cours, vous serez capables de :
• Connaissances informatiques de base:
– créer votre propre langage de marquage, en
respectant les règles qui régissent la syntaxe des
documents XML
– écrire des documents XML et les valider
– appliquer une mise en page et des techniques
typographiques à des documents XML en utilisant
les feuilles de style en cascade
– transformer des documents XML en documents dans
d'autres formats grâce à XSLT
– créer, utiliser et transformer des documents XML en
utilisant des vocabulaires XML standard dans le
monde de la traduction (tels que XCES, XLIFF, XLT)
– gestion de fichiers et édition de textes
• Atout:
– connaissances de base de HTML
21
Quelques références
22
Outils d’édition XML
• Exchanger XML Lite 3.2
• Quelques livres disponibles à la bibliothèque (réseau
des bibliothèques genevoises):
– gratuit: http://www.freexmleditor.com/
– installé en salle 6289
– plusieurs possibilités d’affichage et d’autres fonctionnalités
– « Introduction à XML », Erik T. Ray; Traduction de Alain
Ketterlin.
– « XML Internationalization and Localization », Yves Savourel.
– « XML précis et concis », Simon St. Laurent et Michael
Fitzgerald; Traduction de Philippe Ensarguet et Jean-Noël
Gadreau.
• seules les fonctions de base seront utilisées pendent les TP
• Altova XMLSpy
– version de test gratuite pour 30 jours disponible à:
• http://www.altova.com/products/xmlspy/xml_editor.html
• Introduction au XML:
• Autre éditeurs / parseurs XML gratuits
– http://www.tei-c.org/release/doc/tei-p5-doc/en/html/SG.html
– AltovaXML: http://www.altova.com/altovaxml.html
– XML Marker: http://symbolclick.com/
• Foires aux questions XML:
– http://www.w3.org/XML/1999/XML-in-10-points
– http://www.textuality.com/xml/faq.html
• Cherchez vous-même d’autres éditeurs XML gratuits:
– http://www.google.com/search?q=XML+free+editor
23
24
4