XML - issco - Université de Genève
Transcription
XML - issco - Université de Genève
Documents Structurés Multilingues (XML) 2010 Maria Georgescul ETI, Université de Genève Plan du cours n°1 • Qu’est-ce que XML ? • Eléments d'un document XML Qu’est-ce que XML et pourquoi cela peut vous intéresser? Cours n°1 http://moodle.unige.ch • Bref historique d’XML • Objectifs du cours d’XML • Pourquoi XML peut vous intéresser ? Maria Georgescul Maître Assistante, TIM, ETI, Université de Genève http://www.issco.unige.ch/staff/mariag/index.html [email protected] Bureau 6336 • Organisation du cours; Evaluation des connaissances 2 Qu’est-ce que XML ? (1/2) • Un premier exemple en XML eXtended Markup Language (XML) – conçu pour permettre la structuration, le stockage et la gestion de différentes sortes de données – format qui vise à être expressif et indépendant des plates-formes et des logiciels balise avec un attribut balise = élément = unité sémantique utilisée pour l'enrichissement de l’'information textuelle 3 Qu’est-ce que XML ? (2/2) • 4 Exemple « eXtended Markup Language » (“langage de balisage extensible”) Langage de balisage – – • balises = unités sémantiques placés dans le corps d’un document afin d’en délimiter et d’en étiqueter les différentes parties ainsi que les liens qui existe entre elles Ex: HTML (« HyperText Markup Language ») XML = méta-langage = langage extensible – ensemble de règles permettant la création de langages de balisage personnalisés pour une certaine application Documents structurés utiliser des balises descriptives pour coder la structure d’un document (multilingue) 5 6 1 Documents Structurés Multilingues (XML) 2010 Maria Georgescul ETI, Université de Genève Eléments d'un document XML XML - bref historique (1/2) • En-tête: la déclaration XML débute par les cinq caractères <?xml, suivis d’un certain nombre de définitions de propriétés et se termine par le deux caractères ?> Ex: <?xml version="1.0"?> – la propriété version définit le numéro de la version XML • Une suite d’éléments : balises + texte – Des balises qui définissent le début et la fin d’un ensemble de texte et de balises : <question> et </question> – Des balises sans attributs : 1960 GenCode 1979 GML 1986 SGML 1992 1997 <niveau> Débutant </niveau> application HTML sous-ensemble XML XML facilite l’interconnexion des applications – Une balise avec un attribut : <qr id="1"> – Liens : 2000 • Le contenu de l’attribut fait le lien avec un fichier: <graphique file_ref="smiley.pict"/> 7 8 Bref historique (2/2) • • • XML aujourd’hui SGML (Standard Generalized Markup Language) – successeur de GML (Generalized Markup Language) • GML - langage mis au point par IBM en 1979 – développé par le comité de traitement de l’information de l’ANSI (American National Standards Institute) – publié en 1986 comme norme ISO 8879 HTML (HyperText Markup Language) – application de SGML – début des années 1990 : le langage des pages web – seulement intéressé par l’aspect graphique des documents hypertexte XML – 1996: initiative visant à alléger SGML – mêmes principes que SGML (structuration sémantique des fichiers) – organisme fédérateur: W3C (World Wide Web Consortium): www.w3.org • Standard universel et évolutif (recommandé par W3C): – Spécifications ouvertes, format transparent • version 1.0: Février 1998 http://www.w3.org/TR/xml/ • version 1.1, deuxième édition : Août 2006 http://www.w3.org/TR/xml11/ Différence principale de la version 1.1 vs. version 1.0: exigences des caractères permis pour les noms des éléments et d’attributs Nombreux technologies associés: DTD, XSLT, CSS Nombreuses applications, c.-à-d. particularisations des balises à un problème précis – Exemples: http://xml.coverpages.org/xmlApplications.html • Plus de 400 membres: http://www.w3.org/Consortium/Member/List 9 10 XHTML – successeur de HTML XML vs. HTML • XML : Noms de balises à définir selon les besoins XML peut accommoder des besoins spécifiques (e.g. linguistiques, mathématiques) 1960 GenCode 1979 GML 1986 SGML application • HTML 1992 Noms de balises fixés en vue de l’affichage (spécifiques au vendeur) et pas pour la structure ou la sémantique du contenu • XML: • Syntaxe des balises: stricte • HTML : • Syntaxe des balises: assez tolérante, dépend du navigateur 1997 sous-ensemble HTML balises XML syntaxe 2000 11 XHTML 1.0 est une reformulation de HTML 4 en appliquant la syntaxe de XML 1.0 XHTML eXtensible HyperText Markup Language http://www.w3.org/TR/xhtml1/ 12 2 Documents Structurés Multilingues (XML) 2010 Maria Georgescul ETI, Université de Genève « Le couteau suisse du structuration XML » Objectifs du cours d’XML (1/2) • • DTD CSS Syntaxe Support des caractères spéciaux XML Comprendre le métalangage XML – la bonne formation des documents XML – l'encodage des caractères Comprendre et utiliser les technologies souvent associés à XML afin de: – faire comprendre votre document XML à des tiers : DTD (Document Type Definition) – décrire la présentation des documents XML: CSS (Cascading Style Sheets) – transformer des documents XML: XSLT (XML Stylesheet Transformation Language) – trouver des données à l’intérieur de documents XML: XPath – éviter les conflits entre noms de balises pour différentes applications: espaces de noms 13 Pourquoi XML peut vous intéresser ? Objectifs du cours d’XML (2/2) • 14 • Structurer l’information de manière non-ambiguë • Rendre explicite le contenu des documents • Traiter l’information structurée en XML grâce aux nombreux outils existants • Echanger de l’information entre humains et/ou entre programmes informatiques Connaître les standards basés sur XML pour le traitement multilingue, c.-à-d. : – la gestion de pages web multilingues: • XHTML (eXtensible HyperText Markup Language) – l’annotation de textes: • XCES (XML Corpus Encoding Standard) – la localisation: • XLIFF (XML Localization Interchange File Format) – la terminologie: • XLT (XML representation of Lexicons and Terminologies) – les lexiques électroniques: • OLIF (Open Lexicon Interchange Format) – les mémoires de traduction: • TMX (Translation Memory eXchange) • Dans quelles situations utilisons-nous XML? Traducteur • Quels types d'applications utilisent XML? • Gestion de sites web multilingues • Gestion de fiches terminologiques • Échange des mémoires de traduction • Divers logiciels pour le traducteur utilisent XML 15 16 Gestion de sites web multilingues Gestion de fiches terminologiques Fichiers XML ou XHTML • Seppälä , Selja, “Composition et formalisation conceptuelles de la définition terminographique”, ETIDEA 16 (ETI : mémoires trad.), Ecole de traduction et d'interprétation, Université de Genève. Traducteurs Gestion de l’information fournie par un programme informatique (pour faciliter une analyse ultérieure): • Bircher, Beatrice, “Systran versus Google translate (GT) – the performance of two MT Systems in Query Translation”, ETIMA 30 (ETI : mémoires), Ecole de traduction et d'interprétation, Université de Genève 17 18 3 Documents Structurés Multilingues (XML) 2010 Maria Georgescul ETI, Université de Genève Exemples d’outils compatible TMX Échange des mémoires de traduction SDL Trados Traducteur Traducteur Outil X non-compatible TMX XSLT MultiTrans Déjà Vu X Olifant Across OmegaT Catalyst Fichiers XML (TMX) Rainbow Déjà Vu X Heartsome Traducteur CSS ou XSLT Traducteur Outil Y non-compatible TMX Trados SDLX Lingotek MemoQ Similis Wordfast Star Transit SDLX Traducteur (X)HTML 19 20 Prérequis Postrequis • Au terme du cours, vous serez capables de : • Connaissances informatiques de base: – créer votre propre langage de marquage, en respectant les règles qui régissent la syntaxe des documents XML – écrire des documents XML et les valider – appliquer une mise en page et des techniques typographiques à des documents XML en utilisant les feuilles de style en cascade – transformer des documents XML en documents dans d'autres formats grâce à XSLT – créer, utiliser et transformer des documents XML en utilisant des vocabulaires XML standard dans le monde de la traduction (tels que XCES, XLIFF, XLT) – gestion de fichiers et édition de textes • Atout: – connaissances de base de HTML 21 Quelques références 22 Outils d’édition XML • Exchanger XML Lite 3.2 • Quelques livres disponibles à la bibliothèque (réseau des bibliothèques genevoises): – gratuit: http://www.freexmleditor.com/ – installé en salle 6289 – plusieurs possibilités d’affichage et d’autres fonctionnalités – « Introduction à XML », Erik T. Ray; Traduction de Alain Ketterlin. – « XML Internationalization and Localization », Yves Savourel. – « XML précis et concis », Simon St. Laurent et Michael Fitzgerald; Traduction de Philippe Ensarguet et Jean-Noël Gadreau. • seules les fonctions de base seront utilisées pendent les TP • Altova XMLSpy – version de test gratuite pour 30 jours disponible à: • http://www.altova.com/products/xmlspy/xml_editor.html • Introduction au XML: • Autre éditeurs / parseurs XML gratuits – http://www.tei-c.org/release/doc/tei-p5-doc/en/html/SG.html – AltovaXML: http://www.altova.com/altovaxml.html – XML Marker: http://symbolclick.com/ • Foires aux questions XML: – http://www.w3.org/XML/1999/XML-in-10-points – http://www.textuality.com/xml/faq.html • Cherchez vous-même d’autres éditeurs XML gratuits: – http://www.google.com/search?q=XML+free+editor 23 24 4