DD #011 ChatGPT in der technischen Redaktion
ChatGPT in der technischen Redaktion.
Der Name setzt sich zusammen aus dem Wort „Chat“ also „quatschen“ oder „unterhalten“ und der Abkürzung GPTwelche für Generative Pre-Trained Transformer steht.
ChatGPT ist ein KI- und textbasiertes Dialogsystem und wurde von OpenAI, einem Unternehmen aus San Francisco entwickelt. Dabei soll es angeblich auch von Unternehmen wie Microsoft und Amazon finanziell unterstützt werden. Das Kürzel KI steht für Künstliche Intelligenz, sie werden ihm im Verlaufe des Podcasts öfters begegnen.
Hinter GPT verbirgt sich das Sprachmodell GPT-3.5 welches auf einer Methode aufsetzt, eine Zeichenfolge in eine andere Zeichenfolge umzusetzen also zu transformieren. Diese Methode wird Transformer genannt, der Begriff kommt im Namen vor. OpenAI verwendet zudem eine Technologie namens Deep Learning, um das KI-System für die vorgesehenen Aufgaben zu trainieren.
Deep Learning ist eine Verfahrensweise, um mittels sogenannter künstlicher neuronaler Netze maschinelles Lernen zu ermöglichen. Maschinelles Lernen meint in diesem Fall nicht das menschliche Lernen mit Hilfe von Maschinen, sondern die Lernvorgänge einer Maschine selbst.
So soll ChatGPT in der Lage sein, Fragen und Folgefragen zu beantworten, dabei auftretende Fehler zu erkennen und zu berücksichtigen und auch unangemessene Anfragen abzulehnen.
Im Grunde genommen ist ChatGPT erst einmal nichts anderes als ein aufgebohrter Chatbot. Der Begriff Chatbot ist ein sogenanntes Kompositum bei dem u.a. Verben und Nomen zu einem neuen Wort „komponiert“ werden.
In diesem Fall das englische Verb „Chat“ für Unterhaltung und die Kurzform „Bot“ für Robot.
Man begegnet Chatbots beispielsweise auf Websites von Versicherungsunternehmen, Banken oder Industrieunternehmen. Chatbots sind textbasierte Dialogsysteme. Ruft man eine solche Website auf, poppt – entweder sofort oder nach einer kurzen Weile – meist am unteren rechten Bildschirmrand ein Fenster auf in dem oft eine stilisierte Person zu sehen ist und man wird mit einem Begrüßungstext empfangen, etwa wie: „Guten Tag, wie kann ich Ihnen helfen?“ Nicht selten hat diese virtuelle Person auch einen Namen, vermutlich um persönliche Kundennähe zu simulieren.
Nun kann man eine Frage stellen wie z. B. „Wie kann ich ein Konto eröffnen?“ Solche einfachen Fragen beantwortet der Chatbot sofort, nicht selten zusammen mit einem hilfreichen Link. Allerdings hat ein solches System Grenzen.
Stellt man eine anspruchsvollere Frage wie z. B. „Welche Aktienpakete empfehlen Sie mir heute zu kaufen?“ kann es sein, dass der Chatbot nun antwortet „Es tut mir leid, aber diese Frage kann ich Ihnen nicht beantworten“. Es könnte nun noch ein Hinweis folgen, eine entsprechende Person zu kontaktieren.
Solche Systeme können im Prinzip also nur die Fragen beantworten, zu denen vorgefertigte Textschnipsel existieren und die über definierte Erkennungsmuster bestimmten Fragen zugeordnet sind. Vereinfacht gesagt eine Art festverdrahtetes FAQ-System.
Mit Lösungen wie ChatGPT die auf künstlicher Intelligenz basieren, lassen sich leistungsfähigere und flexiblere Systeme aufbauen. Würde man mein eben genanntes Beispiel so erweitern, dass der Kunde, der sich mit dem Chatbot unterhält, dem System jeweils so antworten kann wie in einem klassischen analogen Dialog zwischen zwei Personen, könnte die dahinterstehende KI bildlich gesprochen entsprechende Schlüsse aus dem Gesprächsverlauf ziehen, diese Informationen abspeichern und sie künftig zur Beantwortung ähnlicher Fragen heranziehen.
Wie kann man ChatGPT nutzen?
Nun ist ChatGPT nicht auf den Einsatz zur Fragenbeantwortung beschränkt, es sind eine Vielzahl weiterer Anwendungen wie zum Beispiel die Erstellung von Programmcode oder von Aufsätzen und wissenschaftlichen Arbeiten möglich. So scheinen sich derzeit Schüler und Studenten über diesen Dienst zu freuen, können sie doch nun, nach Vorgabe einiger Eckpunkte, ein fertiges Referat oder eine sonstige Abhandlung schreiben lassen, ohne den eigenen Geist selbst anstrengen zu müssen. Ein elektronischer Ghostwriter also.
Man könnte somit ChatGPT die Aufgabe stellen: Schreibe mir einen Aufsatz über den Verlauf des Klimawandels vom Archaikum bis in die Gegenwart. Sofern die KI auf diese Daten Zugriff hat, wird ChatGPT diese Aufgabe vermutlich schnell erledigen.
Nun schnell schon aber sofern man sich nicht selbst als Wissenschaftler mit dieser Thematik beschäftigt, wird es schwer, die Plausibilität der Aussagen in dem Aufsatz zu überprüfen. Eine Falle, in die wohl künftig besonders Schüler und Studenten treten werden. Zudem werden weder die Lehrer in den Schulen bzw. Professoren an den Unis sehr erbaut sein, wenn ihnen KI-erstellte Werke vorgelegt werden. Zumindest hierfür bahnt sich jedoch wohl schon eine Lösung an: Mit GPTZero soll es ein Tool geben, das erkennt, ob hinter einem Text der Support einer KI steckt und erste Institutionen untersagen sogar bereits den Einsatz von ChatGPT bei bestimmten Arbeiten. Und das wie ich finde auch zu Recht. Man stelle sich nur mal eine Doktorarbeit in der Medizin vor, die ausschließlich von einem KI-System geschrieben wurde.
Hinzu kommt: Der Lernerfolg, der uns früher als Resultat der aufwändigen Recherche in Büchern und anderen Fachschriften beschieden war, bleibt damit wohl vollständig auf der Strecke.
Bleiben wir nun bei dem Beispiel des Aufsatzes und schlagen den Bogen zur technischen Dokumentation, denn eine gewisse Nähe zwischen einem Aufsatz und einem Informationsprodukt ist durchaus gegeben.
Muster-Betriebsanleitungen, Vorlagen für Warnhinweise, sowie Checklisten, E-Books und vieles mehr. Besuchen Sie jetzt unseren Online-Shop für die Technische Dokumentation!
Ist ChatGPT auch für uns in der technischen Redaktion nutzbar?
Betrachten wir hierzu einige Fragen, die sich bei der Nutzung des Dienstes sofort ergeben:
ChatGPT ist eine Anwendung, die mehrheitlich sowohl über den Internetbrowser als auch in einer Anwendung für die lokale Desktop-Installation genutzt wird. Für beide Varianten ist eine Internetverbindung erforderlich. Alle Daten, die wir an das System übertragen bzw. die wir vom System erhalten, liegen damit wohl vermutlich auf den Servern von OpenAI.
Die Trainingsdaten des Systems sollen aus verschiedenen Quellen stammen, so z. B. aus dem Internet oder Büchern und weiteren Textquellen.
Somit stellt sich bereits die erste Frage, und zwar die vermutlich wichtigste: Die, nach dem Urheberrecht.
Sofern also Inhalte von Websites Eingang in ChatGPT finden und diese weiterverarbeitet werden, könnte dieses möglicherweise für Ärger sorgen, sofern die jeweiligen Rechteinhaber hierzu nicht ihre Zustimmung erteilt haben. Problem: Quasi kaum jemand weiß, was mit dem Content seiner Website so alles passiert – wie soll er dann seine Rechte geltend machen?
Aber mal andersherum betrachtet: Zwar scheint dies derzeit nicht möglich jedoch: Möchte man eigene Inhalte über ChatGPT zur Verfügung stellen, ist es im Umkehrschluss ein denkbarer Weg diese auf einer Website zu veröffentlichen?
Damit schließt sich die zweite Frage an: – wie kann ich kontrollieren wo, in welchem Zusammenhang und an wen meine Daten ausgeliefert werden? Soweit ich das System bisher verstehe – vermutlich gar nicht.
Somit scheint mir der Einsatz von ChatGPT in dieser Form in der TR vorerst nicht möglich.
Obwohl wir eigentlich schon an diesem Punkt über den Einsatz von ChatGPT in dieser Form in der TR gar nicht weiter nachdenken bräuchten, folgen noch ein paar Denkanstöße, denn das System wird ja ständig weiterentwickelt.
- Was passiert mit den Texten, die bereits in ChatGPT eingepflegt sind, wenn es Änderungen gibt? Wer löscht die damit unbrauchbaren Altdaten?
- Wer übernimmt die Verantwortung für die Korrektheit der Texte?
- Was passiert bei Engpässen der Verfügbarkeit? Bei starkem Zugriff auf das System?
- Die kostenfreie Version von ChatGPT kann Zugriffseinschränkungen unterliegen. Braucht man also eine Bedienungsanleitung kann es passieren, dass das System aufgrund hoher Auslastung gerade nicht zur Verfügung steht. Diese Klippe kann man zwar umschiffen aber nur gegen Geld. ChatGPT Plus-Kunden brauchen nämlich hierzu ein kostenpflichtiges Konto.
Ausblick
Und das war es nun mit ChatGPT in der technischen Redaktion?
Das würde ich nun nicht behaupten, denn OpenAI hat ChatGPT eine API spendiert. API steht für Application Programming Interface – es handelt sich also um eine Schnittstelle zur Anwendungsprogrammierung. Vereinfacht gesagt kann man seine eigenen Programme künftig mit ChatGPT-Funktionalität versehen. Wie sich die API von ChatGPT und die Modelle von OpenAI mit C# ansprechen lassen, ist aktuell in einem interessanten Beitrag bei Heise zu lesen.
Man braucht also gar nicht so viel Phantasie, um zu erkennen, dass in absehbarer Zeit die KI verstärkt auch in der TR Einzug halten könnte.
Doch wie könnte das aussehen? Wird die KI in der Lage sein eine komplexe Dokumentation für sagen wir eine Walzstraße auszuarbeiten?
Und wie soll das im Detail aussehen?
Zuerst einmal muss ich das System mit Daten füttern. Nehmen wir hierzu als Beispiel eine recht einfache Handlungsanweisung, sagen wir den Wechsel eines Filtereinsatzes. Die gesamte Handlung umfasst 4 Einzelschritte: Das Gerät öffnen, den alten Filter entnehmen, einen neuen Filter einsetzen, das Gerät schließen.
Jeden dieser Einzelschritte könnte man als einzelnen Datensatz in einer Datenbank speichern. Die Herausforderung ist es nun, dass die KI diese Datensätze in eine logische Reihenfolge bringt, um eine korrekte Handlungsanweisung zu schreiben. Doch wie soll die KI nun wissen, welcher Datensatz an welche Stelle der Handlungsanleitung gehört? Eine Möglichkeit wäre die einzelnen Datensätze anhand ihres Index in der Datenbank oder anhand von Metadaten strukturierbar zu machen. Doch um daraus dann am Ende eine logische Handlungsabfolge zu machen, braucht es keine KI.
Will man die KI gewinnbringend nutzen, wäre es doch sinnvoll, schonmal die eingangs erwähnte Transformationsfunktion der GPT-Modelle zu nutzen. Wir erinnern uns: Die Umsetzung von einer Zeichenfolge in eine andere. Dabei sollte es unerheblich sein, in welcher Form diese Zeichenfolgen vorliegen. Denkbares Szenario also: Wir nutzen künftig die Speech-to-Text-Funktion und diktieren dem System erstmal die passenden Handlungsschritte in die Datenbank. Das ist nun noch keine Hürde und auch dafür bräuchten wir ja auch noch keine KI, denn Spracherkennung haben die Computerbetriebssysteme schon seit langem an Bord – aber wenn wir schon mal dabei sind …
Wollen wir die KI aber einsetzen, müssen wir etwas Entscheidendes beachten: Die KI soll ja später anhand der Datensätze selbst erkennen und entscheiden an welcher Stelle sie im Handlungsstrang stehen. Das würde also bedeuten: Den ersten Handlungsschritt müsste ich vermutlich so diktieren (oder schreiben): „Zuerst öffnen Sie das Gerät durch Lösen der vier Hutmuttern“.
Den zweiten Handlungsschritt formulieren wir so: „Dann entnehmen Sie den verschmutzten Filter“ oder „Entnehmen Sie dann den verschmutzten Filter“. Na, sie merken schon: Diese Formulierungen kann man in einem Roman verwenden aber doch nicht in der TD. Aber lassen wir das jetzt mal so stehen, es wird noch besser. Jetzt kommt nämlich der dritte Handlungsschritt – den neuen Filter einsetzen. Kann die KI aufgrund der Formulierungen „zuerst“ und „dann“ noch die richtige Reihenfolge erkennen wird es mit steigender Anzahl an folgenden Handlungsschritten zunehmend schwieriger.
Wie sage ich es also der KI, dass jetzt der neue Filter eingesetzt werden muss? Etwa so: „Nun, setzen Sie den neuen Filter ein“ oder „Setzen sie nun den neuen Filter ein“. Kann man machen – nur muss die KI so trainiert sein, dass sie die Ordnungskriterien von „dann“ und „nun“ unterscheiden kann. Und was, wenn jetzt ein weiterer Schritt käme – etwa: „Legen Sie einen neuen Dichtungsring ein“? Der letzte Schritt in dem Handlungsstrang ist hingegen wieder unkritisch: Verwenden wir beispielsweise die Formulierung „Zum Schluss schließen sie das Gerät durch festziehen der vier Hutmuttern“ kann die KI anhand der Zeichenfolge „Zum Schluss“ erkennen, dass dieser Handlungsschritt der logisch Letzte sein muss.
Solch ein Vorgehen würde aber bedeuten, dass wir uns bereits im Vorfeld intensiv darüber Gedanken machen müssen, wie wir einen Handlungsschritt formulieren. Aber damit nicht genug: Im Rahmen der Wiederverwendbarkeit der Bausteine in einem CMS stoßen wir vermutlich schnell auf neue Probleme: Etwa dann wenn der Baustein: „Zuerst öffnen Sie das Gerät durch Lösen der vier Hutmuttern„ in der nächsten Handlungsanleitung nicht an erster, sondern an zweiter Stelle stehen muss, etwa weil vor dem Öffnen des Gerätes noch eine Abdeckung zu entfernen ist?
Und dann von diesen Schwierigkeiten abgesehen: Würden Sie wirklich die Handlungsschritte einer logischen Handlungsfolge mit „zuerst“ und „dann“ und „Zum Schluss“ beginnen?
Mangels tiefgreifender Kenntnisse im Umgang mit der KI fallen mir leider derzeit keine anderen Möglichkeiten ein, die KI dazu zu bringen, solche Handlungsstränge in einer logischen Reihenfolge selbst anzuordnen.
Sie wollen die Übersicht behalten? Dann nutzen Sie unsere kostenlosen Checklisten für die Technische Dokumentation und zur Überprüfung Ihrer Betriebsanleitungen!
Fazit
Halten wir also fest:
- An der KI werden wir in Zukunft auch in der technischen Redaktion vermutlich kaum vorbeikommen. Ob sie sich allerdings in absehbarer Zeit für das Erstellen einer Betriebsanleitung eignet, ohne dass im Anschluss noch eine Vielzahl von Kontroll- und Korrekturabläufen erforderlich sind, bleibt aus meiner Sicht fraglich.
- Ich gehe auch davon aus, dass das Training einer KI im Redaktionsumfeld nicht nur ein langwieriger und zeitraubender, sondern auch ein unendlicher Prozess sein wird, der die permanente Überwachung und das Eingreifen der Menschen erfordert.
- Ob sich ChatGPT unter Verwendung der APIs sinnvoll in die TR integrieren lässt, bleibt wohl erst einmal abzuwarten.
- ChatGPT in seiner derzeitigen Form als webbasierte oder Desktopanwendung zur Erstellung von technischer Dokumentation heranzuziehen halte ich für derzeit nicht praktikabel.
- Und schließlich hätten wir noch die – aus meiner Sicht – große Problematik der Wahrung des Urheberrechts sofern ChatGPT in dieser Form genutzt wird.