Überspringen zu Hauptinhalt

RA #011 XML

RA #011 XML

XML steht für Extensible Markup Language und bedeutet „erweiterbare Auszeichnungssprache“. Sie wurde im Jahre 1998 als erstes frei verfügbares, plattformunabhängiges Format für strukturierte Daten veröffentlicht. Der Begriff Auszeichnungssprache leitet sich ab von Auszeichnung, womit in der Typographie Formatierungsfestlegungen für Textbereiche bezeichnet werden. Also beispielsweise die Darstellung einer Überschrift in blauer kursiver Fettschrift.

XML begegnet uns offen, aber vielfach auch versteckt, sodass wir mit XML meist gar nicht bewusst in Berührung kommen. So werkelt XML beispielsweise unter der Haube des Vektorgrafikformates SVG oder in Microsoft Word. Das mit Word glauben Sie nicht? Probieren Sie es einfach mal aus. Dazu müssen Sie nichts weiter tun, als das Word-Dokument umzubenennen: aus Testdokument.docx wird Testdokument.zip. Entpacken Sie anschließend das zip-File und schauen Sie sich die Inhalte der angezeigten Verzeichnisse in Ruhe an. Eine docx-Datei ist also im Prinzip nichts anderes als ein Word-Dokument im Open-XML-Format. Das gilt im Übrigen auch für Excel-Arbeitsblätter im XLSX-Format und Powerpoint-Dokumenten im Format pptx.

XML ist ein textbasiertes Format und wird zum Darstellen und dem Austausch strukturierter Informationen verwendet. In welchen Dokumenten oder Dateiformaten diese vorliegen, ist dabei im Wesentlichen unerheblich. XML kann nicht nur von Menschen, sondern auch von Maschinen gelesen werden.

XML ist auch eine Metasprache – also eine Sprache über eine Sprache. Diese Definition ist vermutlich nicht so recht verständlich. Richtig verwirrend wird es, wenn man sich die Abgrenzung zur Objektsprache ansieht. Laut Wikipedia ist die Objektsprache eine Sprache, über die eine Metasprache spricht. Soweit verstanden? Nein? Macht nichts, ich verstehe es auch nicht, kann aber trotzdem mit XML umgehen.
Aber im Ernst: XML gibt als Meta-Sprache Regeln vor mit welchen die aus XML abgeleiteten Auszeichnungssprachen – die sog. XML-Dialekte – erstellt werden. Diese Dialekte werden als Schema bezeichnet. Ein wohl bekanntes Schema in Hinsicht auf die technische Redaktion ist DITA (Darwin Information Typing Architecture), ein Standard, der ursprünglich von IBM entwickelt wurde und seit 2004 von OASIS Technical Commitee weitergeführt wird. OASIS hat übrigens nichts mit der bekannten britischen Band zu tun, sondern steht für Organization for the Advancement of

Structured Information Standards. DITA bietet u.a. einen Rahmen für die Umsetzung auf XML-Basis, so z. B. die Klassenkonzepttechnik von Prof. Sissi Closs.

XML erinnert in seiner Auszeichnung und Struktur an HTML – ebenfalls eine Auszeichnungssprache, welche die Basis von Webseiten ist. Wer sich mit HTML auskennt, wird sich in XML schnell heimisch fühlen. Doch es gibt selbstverständlich Unterschiede:

So sind die sog. Tags – das sind die in den spitzen Klammern stehenden Code-Elemente, welche den auszugebenden Text umschließen – frei definierbar. Während also bei HTML die Bezeichnungen der Tags vorgegeben sind und nicht verändert werden dürfen, können Sie diese bei XML frei wählen.

Ob Sie also beispielsweise das XML-Element  welches das gesamte Dokument umschließt (Wurzelelement) „Kapitel“ oder „Leberwurst“ nennen, ist völlig unerheblich. Wichtig dabei ist nur: Der Name des öffnenden Tags muss mit dem des schließenden Tags identisch sein.

Hinsichtlich der Elementnamen gilt darüberhinaus: Buchstaben, Unterstrich, Minus und Punkt sind erlaubt, Ziffern auch – allerdings erst ab der 2. Stelle. Also nicht: 1.Kapitel, sondern besser Kapitel1. Sonderzeichen wie $, %, und das Kaufmännische & sind nicht erlaubt.

Wie in der HTML-Welt spielen Stylesheets auch bei XML eine Rolle. Ein Stylesheet ist – wie es der Name vielleicht bereits vermuten lässt – eine Sammlung von Regeln zur Formatierung der auszugebenden Inhalte. Hierin wird beispielsweise festgelegt, ob der Text in Fettschrift oder einer bestimmten Farbe ausgegeben werden soll. CSS (Cascading Stylesheets) ist standardisiert und wird durch XSL (Extensible Stylesheet Language) und XSLT (XSL Transformation) noch deutlich erweitert. Mit Letzterem lassen sich XML-Dokumente  transformieren. Es baut auf ihrer Baumstruktur auf und dient dazu, entsprechende Umwandlungsregelungen zu definieren. Auch beim automatisierten Publizieren von XML-Daten ist XSLT eine Hilfe . So lassen sich aus diesen beispielsweise E-Book-Formate wie EPub, aber auch PDF oder HTML-Dokumente erzeugen.

Muster-Betriebsanleitungen, Vorlagen für Warnhinweise, sowie Checklisten, E-Books und vieles mehr. Besuchen Sie jetzt unseren Online-Shop für die Technische Dokumentation!

Die Verknüpfung zwischen CSS und XML erfolgt über sogenannte Selektoren, welche jeweils angeben, welchem Element welche Formatierung zugeordnet werden soll. Auch ein CSS ist rein textbasiert und kann bereits mit einem einfachen Texteditor erstellt und bearbeitet werden. Wichtig dabei: CSS besitzen eine eigene Syntax, folgen also nicht der XML-Spezifikation. CSS sind außerdem ein wichtiger Schlüssel hinsichtlich der Wiederverwendung von Dokumenten durch single Source Publishing.

Aber auch XML kommt nicht ohne enge Vorschriften aus. Da ist zum einen die Forderung, dass XML-Dokumente „wohlgeformt“ sein müssen. Was bedeutet das?
Im Prinzip nichts anderes, als dass ein XML-Dokument die Regeln von XML einhält. So zum Beispiel, dass ein Dokument mit einer Beschreibung eingeleitet wird, die den Bezug zu XML herstellt, dass mindestens ein Datenelement vorhanden sein muss und dass ein sogenanntes root-Element – also Wurzelelement – alle anderen Datenelemente umschließt.

Ist ein XML-Dokument nicht wohlgeformt, wird die Verarbeitung vom sog. XML-Parser abgelehnt und eine Fehlermeldung ausgegeben. Beim XML-Parser (auch XML-Prozessor) handelt es sich um ein Programm, das XML-Dokumente liest und verarbeitet. Ein Beispiel im Bereich der Technischen Redaktion hierfür wäre ein CMS.

Darüber hinaus muss ein XML-Dokument nicht nur wohlgeformt, sondern auch valide sein. Das bedeutet, dass es die Regeln einer Dokumentenstruktur (einer sog. DTD – Document Type Definition) einhalten – und natürlich auch wohlgeformt sein muss.
Daraus ergibt sich, dass ein XML-Dokument zwar durchaus wohlgeformt, aber trotzdem nicht valide sein kann – was aber dennoch einen Fehler darstellt. Eine DTD ist eine Sammlung von Regeln zur Deklaration (Festlegung) eines Dokumentes – also z. B., welche Elemente und Attribute erlaubt sind und wie sie zusammengesetzt sind. Man unterscheidet in interne – also in dem XML-Dokument eingebettete – oder externe – aus dem XML-Dokument ausgegliederte – DTDs.

Nun muss allerdings eine Vailiditätsprüfung nicht zwingend unter Verwendung von DTDs erfolgen. Auch der offizielle Nachfolger XML-Schema kann hierzu eingesetzt werden. XML-Schema bietet einige Vorteile gegenüber DTDs wie z. B. eine einfachere Beschreibung des Elementinhalts und des Dokumentaufbaus. Dabei sind XML-Schemata in der XML-Syntax beschrieben, was einen Umstieg für den Benutzer wohl vereinfacht. Eine weitere Steigerung hinsichtlich der Prüfmöglichkeiten stellt die ISO-zertifizierte Schemasprache relax NG dar.

Apropos Editoren: Ein XML-Dokument kann in jedem beliebigen Editor erstellt bzw. bearbeitet werden – also auch in einem ganz einfachen Texteditor. Für die professionelle Anwendung empfiehlt es sich jedoch entweder Editoren einzusetzen, die auf verschiedene Programmier- und Scriptsprachen ausgelegt sind (z. B. MS Visual Studio) oder spezielle nur auf XML ausgerichtete wie beispielsweise easy XML Editor oder Oxygen XML Editor. Diese bieten deutlich mehr Bedienkomfort und wichtige Funktionen wie beispielsweise eine Syntaxüberprüfung des Codes.

XML – die Standards und die Normen

XML ist grundsätzlich ein weltweiter Standard und wird vom World Wide Web Consortium (W3C) in Zusammenarbeit mit der ISO (International Organization for Standardization) gepflegt.

Dabei hat dieser Standard zwar nicht den Rang einer Norm inne, wird aber in verschiedenen Normen, welche XML-basierte Strukturen für bestimmte Zwecke verwenden beschrieben . So z. B. die VDI/VDE 3690 – XML in der Automation oder die DIN 16557-4 ­ – elektronischer Datenaustausch für Verwaltung, Wirtschaft und Transport.

XML und die technische Redaktion

In der technischen Redaktion begegnet uns XML beispielsweise beim Single Source Publishing. Hierbei handelt es sich um einen XML-Standard, auf welchem aktuelle Redaktionssysteme basieren. Diese bieten den Vorteil der getrennten Verwaltung von Layout und Inhalt sowie der Struktur eines Dokumentes. Somit ist es beispielsweise möglich, den gleichen Inhalt einer Bedienungsanleitung sowohl in gedrucktem A4- und A5-Format als auch als HTML-Dokument auszugeben. Damit kann ein und derselbe Inhalt medienunabhägig verwendet werden. Unterstützt wird dies z. B. dadurch, dass sich den Inhalten Attribute wie Sprachversionen, Varianten, Eigenschaften, Tags und Stichwörter zuordnen lassen. Zudem lassen sich Dokumente leichter aktualisieren bzw. erweitern und pflegen sowie übersetzen bzw. an bestimmte Märkte hinsichtlich landestypischer und kultureller Anforderungen der Zielgruppe  anpassen (Lokalisierung).

Halten wir also fest:

  • XML ist ein weltweiter Standard und wird vom World Wide Web Consortium (W3C) in Zusammenarbeit mit der ISO (International Organization for Standardization) gepflegt.
  • XML wird zum Darstellen und dem Austausch strukturierter Informationen verwendet.
  • XML ist eine Metasprache
  • XML ist sowohl von Menschen als auch von Maschinen lesbar.
  • XML ist textbasiert und kann mit jedem Texteditor bearbeitet werden.
  • XML ähnelt in seiner Struktur und Darstellung HTML und bietet dem Entwickler aber etwas mehr Freiheit als HTML. Dennoch ist die Welt von XML nicht regelfrei.
  • XML-Dokumente müssen sowohl wohlgeformt als auch valide sein.

Sie wollen die Übersicht behalten? Dann nutzen Sie unsere kostenlosen Checklisten für die Technische Dokumentation und zur Überprüfung Ihrer Betriebsanleitungen!

Unser Wissen für Sie als PODCAST - Holen Sie sich die neuesten Episoden auf Ihr Smartphone

An den Anfang scrollen