RA #011 XML
XML steht für Extensible Markup Language und bedeutet „erweiterbare Auszeichnungssprache“. Sie wurde im Jahre 1998 als erstes frei verfügbares, plattformunabhängiges Format für strukturierte Daten veröffentlicht. Der Begriff Auszeichnungssprache leitet sich ab von Auszeichnung, womit in der Typographie Formatierungsfestlegungen für Textbereiche bezeichnet werden. Also beispielsweise die Darstellung einer Überschrift in blauer kursiver Fettschrift.
XML ist ein textbasiertes Format und wird zum Darstellen und dem Austausch strukturierter Informationen verwendet. In welchen Dokumenten oder Dateiformaten diese vorliegen, ist dabei im Wesentlichen unerheblich. XML kann nicht nur von Menschen, sondern auch von Maschinen gelesen werden. XML ist eine vielseitige und weit verbreite Technologie, die in verschiedenen Bereichen wie Datenübertragung, Webentwicklung und auch der Technischen Dokumentation eingesetzt wird.
XML gibt als Meta-Sprache Regeln vor mit welchen die aus XML abgeleiteten Auszeichnungssprachen – die sog. XML-Dialekte – erstellt werden. Diese Dialekte werden als Schema bezeichnet. Ein wohl bekanntes Schema in Hinsicht auf die technische Redaktion ist DITA (Darwin Information Typing Architecture), ein Standard, der ursprünglich von IBM entwickelt wurde und seit 2004 von OASIS Technical Commitee weitergeführt wird. OASIS hat übrigens nichts mit der bekannten britischen Band zu tun, sondern steht für Organization for the Advancement of Structured Information Standards. DITA bietet u.a. einen Rahmen für die Umsetzung auf XML-Basis, so z. B. die Klassenkonzepttechnik von Prof. Sissi Closs.
Struktur von XML und die Parallelen zu HTML
XML erinnert in seiner Auszeichnung und Struktur an HTML – ebenfalls eine Auszeichnungssprache, welche die Basis von Webseiten ist. Wer sich mit HTML auskennt, wird sich in XML schnell heimisch fühlen. Doch es gibt selbstverständlich Unterschiede:
So sind die sog. Tags – das sind die in den spitzen Klammern stehenden Code-Elemente, welche den auszugebenden Text umschließen – frei definierbar. Während also bei HTML die Bezeichnungen der Tags vorgegeben sind und nicht verändert werden dürfen, können Sie diese bei XML frei wählen.
Das erste Tag-Paar bildet das „Wurzelelement“ und umschließt das gesamte Dokument. Ob dieses dann „Kapitel“ oder „Leberwurst“ heißt ist egal, wichtig dabei ist nur: Der Name des öffnenden Tags muss mit dem des schließenden Tags identisch sein.
Die Tags bilden dann einen Strukturbaum aus verschiedenen Elementen in Ihrem Dokument, die miteinander verknüpft sind.
Wie in der HTML-Welt spielen Stylesheets auch bei XML eine Rolle. Ein Stylesheet ist – wie es der Name vielleicht bereits vermuten lässt – eine Sammlung von Regeln zur Formatierung der auszugebenden Inhalte. Hierin wird beispielsweise festgelegt, ob der Text in Fettschrift oder einer bestimmten Farbe ausgegeben werden soll. CSS (Cascading Stylesheets) ist standardisiert und wird durch XSL (Extensible Stylesheet Language) und XSLT (XSL Transformation) noch deutlich erweitert. Mit Letzterem lassen sich XML-Dokumente transformieren. Es baut auf ihrer Baumstruktur auf und dient dazu, entsprechende Umwandlungsregelungen zu definieren. Auch beim automatisierten Publizieren von XML-Daten ist XSLT eine Hilfe. So lassen sich aus diesen beispielsweise E-Book-Formate wie EPub, aber auch PDF oder HTML-Dokumente erzeugen.
Die Verknüpfung zwischen CSS und XML erfolgt über sogenannte Selektoren, welche jeweils angeben, welchem Element welche Formatierung zugeordnet werden soll. Auch ein CSS ist rein textbasiert und kann bereits mit einem einfachen Texteditor erstellt und bearbeitet werden. Wichtig dabei: CSS besitzen eine eigene Syntax, folgen also nicht der XML-Spezifikation. CSS sind außerdem ein wichtiger Schlüssel hinsichtlich der Wiederverwendung von Dokumenten durch Single Source Publishing.
Muster-Betriebsanleitungen, Vorlagen für Warnhinweise, sowie Checklisten, E-Books und vieles mehr. Besuchen Sie jetzt unseren Online-Shop für die Technische Dokumentation!
Die Spezifikationen von XML
Aber auch XML kommt nicht ohne enge Vorschriften aus. Da ist zum einen die Forderung, dass XML-Dokumente „wohlgeformt“ sein müssen. Was bedeutet das?
Im Prinzip nichts anderes, als das ein XML-Dokument die Regeln von XML einhält. So zum Beispiel, dass ein Dokument
- mindestens ein Datenelement enthalten muss, das sogenanntes root-Element oder auch Wurzelelement, welches alle anderen Datenelemente umschließt.
- Die XML-Elemente besitzen einen Start und einen Endtag. Elemente mit Inhalt müssen immer ein schließendes Element haben.
- Öffnende und schließende XML-Elemente müssen mit derselben Schreibweise verwendet werden. Also ist bei den Tags auf Groß- und Kleinschreibung zu achten.
- Es dürfen im Dokument keine falschen Verschachtelungen vorkommen.
- Attributwerte müssen immer in Anführungszeichen stehen. Es dürfen in einem Element auch nicht mehrere Attribute mit demselben Namen vorkommen.
- Bestimmte Zeichen haben eine besondere Bedeutung.
- Optional ist ein Dokument noch mit einer Beschreibung einzuleiten, dem XML-Prolog, die den Bezug zu XML herstellt und Informationen zur Version und der Zeichenkodierung enthält.
Ist ein XML-Dokument nicht wohlgeformt, wird die Verarbeitung vom sog. XML-Parser abgelehnt und eine Fehlermeldung ausgegeben. Beim XML-Parser (auch XML-Prozessor) handelt es sich um ein Programm, das XML-Dokumente liest und verarbeitet. Ein Beispiel im Bereich der Technischen Redaktion hierfür wäre ein Content Management System.
Validierung der Dokumente
Darüber hinaus muss ein XML-Dokument nicht nur wohlgeformt, sondern auch valide sein. Das bedeutet, dass es die Regeln einer Dokumentenstruktur, im englischen Document Type Definition – kurz DTD, einhält.
Daraus ergibt sich, dass ein XML-Dokument zwar durchaus wohlgeformt, aber trotzdem nicht valide sein kann – was dann ebenfalls einen Fehler darstellt. Eine DTD ist eine Sammlung von Regeln zur Festlegung eines Dokumentes – also z. B., welche Elemente und Attribute erlaubt sind und wie sie zusammengesetzt sind. Man unterscheidet in interne – also in dem XML-Dokument eingebettete – oder externe – aus dem XML-Dokument ausgegliederte – DTDs.
Nun muss allerdings eine Validitätsprüfung nicht zwingend unter Verwendung von DTDs erfolgen. Auch der offizielle Nachfolger XML-Schema kann hierzu eingesetzt werden. XML-Schema bietet einige Vorteile gegenüber DTDs wie z. B. eine einfachere Beschreibung des Elementinhalts und des Dokumentaufbaus. Dabei sind XML-Schemata in der XML-Syntax beschrieben, was einen Umstieg für den Benutzer vereinfacht. Eine weitere Steigerung hinsichtlich der Prüfmöglichkeiten stellt die ISO-zertifizierte Schemasprache relax NG dar.
Apropos Editoren: Ein XML-Dokument kann in jedem beliebigen Editor erstellt bzw. bearbeitet werden – also auch in einem ganz einfachen Texteditor. Für die professionelle Anwendung empfiehlt es sich jedoch entweder Editoren einzusetzen, die auf verschiedene Programmier- und Scriptsprachen ausgelegt sind (z. B. MS Visual Studio) oder spezielle nur auf XML ausgerichtete wie beispielsweise easy XML Editor oder Oxygen XML Editor. Diese bieten deutlich mehr Bedienkomfort und wichtige Funktionen wie beispielsweise eine Syntaxüberprüfung des Codes.
XML und die technische Redaktion
In der technischen Redaktion begegnet uns XML beispielsweise beim Single Source Publishing. Hierbei handelt es sich um einen XML-Standard, auf welchem aktuelle Redaktionssysteme basieren. Diese bieten den Vorteil der getrennten Verwaltung von Layout und Inhalt sowie der Struktur eines Dokumentes. Somit ist es beispielsweise möglich, den gleichen Inhalt einer Bedienungsanleitung sowohl in gedrucktem A4- und A5-Format als auch als HTML-Dokument auszugeben. Zudem kann ein und derselbe Inhalt medienunabhängig verwendet werden. Unterstützt wird dies z. B. dadurch, dass sich den Inhalten Attribute wie Sprachversionen, Varianten, Eigenschaften, Tags und Stichwörter zuordnen lassen.
Zudem lassen sich Dokumente leichter aktualisieren bzw. erweitern und pflegen. Hierbei verwendet man einzelnen Module mit standardisierten Abschnitten für Handlungsanweisungen, Produktbeschreibungen oder Warnhinweise, die dann in verschiedenen Dokumenten wiederverwendet werden können.
Ein Redaktionssystem welches XML nutzt, lässt auch eine nachhaltige Qualitätssicherung zu. Versionskommentare geben Aufschluss über durchgeführte Änderungen, was vor allem in einer mehrköpfigen Redaktion hilfreich ist.
Auch die Anpassung der Dokumente an bestimmte Märkte hinsichtlich landestypischer und kultureller Anforderungen der Zielgruppe sowie die Übersetzung der Inhalte gehört zu den Möglichkeiten von XML in der technischen Redaktion.
Bevor wir zum Ende der Folge kommen, möchte ich noch mal kurz das wichtigste zusammenfassen.
- XML ist ein weltweiter Standard und wird zum Darstellen und dem Austausch strukturierter Informationen verwendet.
- XML ist eine Metasprache und ist sowohl von Menschen als auch von Maschinen lesbar.
- XML ist textbasiert und kann mit jedem Texteditor bearbeitet werden.
- XML ähnelt in seiner Struktur und Darstellung HTML, bietet dem Entwickler aber etwas mehr Freiheit als HTML.
- XML-Dokumente müssen sowohl wohlgeformt als auch valide sein.
- XML kommt in aktuellen Redaktionssystemen in der Technischen Dokumentation zum Einsatz.
Sie wollen die Übersicht behalten? Dann nutzen Sie unsere kostenlosen Checklisten für die Technische Dokumentation und zur Überprüfung Ihrer Betriebsanleitungen!