Textgenerierung

aus Wikipedia, der freien Enzyklopädie

Als Textgenerierung (auch natürlichsprachliche Generierung; englisch Natural Language Generation, NLG) bezeichnet man die automatische Produktion von natürlicher Sprache durch eine Maschine. Die Generierung von Texten ist als Teilbereich der Computerlinguistik eine besondere Form der künstlichen Intelligenz.

Generierungsprozess

Für den Generierungsprozess gibt es je nach verwendeter Methode und Blickwinkel unterschiedliche Beschreibungsmodelle und Fachausdrücke, ohne sich prinzipiell widersprechen zu müssen.

Nach Ehud Reiter[1] besteht die Architektur zur Generierung heute standardmäßig aus einem Textplaner, einem Satzplaner und einem Oberflächenrealisierer. Für das Verhältnis zwischen Textsegmenten bedient man sich der Theorie rhetorischer Strukturen, RST, um die Diskursrelationen[2] zu gestalten. Ein Text ist kohärent, wenn er durch einen Baum von rhetorischen Relationen und elementaren Texteinheiten dargestellt werden kann (RST: Mann, Thompson): Als Relationen zwischen Haupt- und Nebensätzen gelten folgende Bindeglieder: CAUSE, RESULT, ELABORATION, CONTRAST, SEQUENCE, LIST, CONCESSION und andere.

Nach M. Hess[3] benötigt die Generierung zwei Komponenten.

  • Die Strategische Komponente, was gesagt werden soll: Informationsauswahl, Inhaltswahl, Bereichsplanung. Diese Komponente verwendet in der Regel Such- und Planungsstrategien der Künstlichen Intelligenz.
  • Die Taktische Komponente, wie es gesagt werden soll: Die Planung der sprachlichen Form. Dabei wird oft eine auf den Generierungsaspekt zugeschnittene Grammatik verwendet.

Ulrich Gaudenz Müller entwickelte gemeinsam mit dem Germanisten und Computerlinguisten Raimund Drewek von 1981 bis 1999 ein System zur Textgenerierung, das SARA (Satz-Random-Generator) genannt wurde.

Textgenerierung aus Wissensbasen

„Voraussetzung für jegliche Art der Generierung ist, daß die als Text zu generierende Information als formale, computerlinguistisch verarbeitbare Information vorliegt, wie z. B. Informationen aus Datenbanken, oder Wissensrepräsentationen.“[4]

Die Textgenerierung aus derartigen Wissensbasen gibt es in Varianten für verschiedene Aufgabenstellungen.

  • Schnittstelle zu Expertensystemen
  • Produktion technischer Dokumente in mehreren Sprachen aus einer Wissensbasis[5]
  • Automatische Generierung (von Wegbeschreibungen, Wetterberichten und Börsenberichten)[4][6]
  • Generierungskomponente von Dialogsystemen[4]
  • Generierung aus transformerbasierten Sprachmodellen (z. B. mittels GPT2/3)[7]

Anwendungsgebiete

Roboterjournalismus

Unter dem medial geprägten Begriff „Roboterjournalismus“ werden Algorithmen verstanden, die aus Datenbanken und ‑kolonnen fertige Nachrichtentexte generieren können. Bei diesem Verfahren steht die Einsparung bzw. Fokussierung humaner Journalisten im Vordergrund. Redaktionen können durch die maschinelle Entlastung einerseits mit weniger Mitarbeitern höherwertige weil aufwändiger recherchierte Nachrichtenprodukte gewinnen. Andererseits können sie Berichte veröffentlichen, die aus Mangel an Zeit oder wegen zu wenig Interessenten nicht geschrieben werden könnten. Der Einsatz von Software im Journalismus ist noch umstritten, es wird vor allem diskutiert, worin der menschliche Journalist der Software überlegen ist.[8] Zudem ist die Frage ungeklärt, inwiefern automatisch generierte Texte dem Urheberrecht unterliegen.[9] Die speziell auf die Inputdaten zugeschnittenen Algorithmen berechnen permanent Werte und verfassen Berichte über diese, entweder in bestimmten Zeitintervallen (z. B. tägliche Wetterberichte) oder wenn sich Werte stark verändern (z. B. Erdbeben-Warnung[10]). Besonders häufige Einsatzgebiete von „Roboterjournalisten“ sind Nischen wie unterklassige Sportmeldungen, Wetterberichte und Börsenticker.[11] Aber auch die datengetriebene Erstellung von automatisierten Inhalten für die Berichterstattung zu lokalen Themen kommt bereits zur Anwendung.[12]

Chatbots

In textbasierten Dialogsystemen, wie Chatbots, wird die Textgenerierung zur Kommunikation mit dem Nutzer verwendet. Bekanntes historisches Beispiel ist das Programm ELIZA.[13]

Ein Teil der Kommunikation mit hochentwickelten Intelligenten virtuellen Agenten beruht auf diesem Prinzip, wobei die Qualität des Dialogs unter anderem von der Verknüpfung des Agenten mit Wissensbasen abhängt. Der Dialog eines Menschen mit verschiedenen Schnittstellen kann erleichtert werden, wenn ein Agent Text generiert, der Fragen produktiv beantwortet:

  • Beim Abrufen eines Informationsangebots, unter anderem als Präsentationsagent einer Webseite (auch „Online Moderator“ genannt)
  • Bei einem sprachfähigen Programm zur Wahl eines Beraters (oft für telefonisches Vorsortieren von Kunden genutzt)
  • Bei Dialogen mit Figuren in Computerspielen

Content Marketing

Laut einer Studie ist die Marketing-Branche, die Branche, auf die Künstliche Intelligenz den größten Einfluss haben wird[14]. Bis 2022 sollen mehr als 30 % der digitalen Inhalte mithilfe von KI-Technologie erstellt werden[15]. Im Marketing werden verschiedene Tools genutzt, um Inhalte zu generieren, wie z. B. das Erstellen von Werbetexten, die Generierung von Newsletter-Betreffzeilen, und das Validieren von den KI-generierten Ergebnissen.

Textgenerierung als kreatives Verfahren

Textgenerierung kann eine Komponente kreativer Verfahren in Kunst und Literatur sein.[16] Für längere Werke bieten komplett generierte Textkörper, ob sinnhaltig generiert oder erst durch die Nachbearbeitung mit Sinn versehen, keine literarische Qualität. Es stehen jedoch einige in der Kunst des vorigen Jahrhunderts und in der Zeitgenössischen Kunst bedeutende künstlerische Verfahren Digitaler Poesie in Beziehung zur Textgenerierung.

Verfahren und Anwendungen in Bildender Kunst und Literatur

  • Eingriffe in die generierende Software oder die Wissensbasis (künstlerische und literarische Experimente). Beispiel (nach Reinhard Döhl): Max Bense und seine Stuttgarter Gruppe benutzten 1959 eine Zuse Z22 um "mit Hilfe eines eingegebenen Lexikons und einer Anzahl von syntaktischen Regeln Texte zu synthetisieren und auszugeben"[17].
  • Nachbearbeitung oder Einbau generierten Textes durch Autoren (Literatur).[18]
  • Dialog mit Publikum (beispielsweise in Kunstinstallationen). Beispiel: David Link, Poetry Machine[19]

Textgenerierung durch Phrasendreschmaschine

Phrasendreschmaschinen oder Bullshit-Generatoren (englisch

bullshit generators

, auch

buzzword generators

) gab es vor der Umsetzung in Software als mechanische Geräte. Wahrscheinlich die erste als Software ausgeführte Phrasendreschmaschine war LoveLetters_1.0, 1952 programmiert von Christopher Strachey an der University of Manchester für den Ferranti Mark I.[20] Ähnliche Generatoren sind in vielen weiter entwickelten Ausführungen im WWW zu finden. Solche Programme arbeiten nach einfachen Konzepten, die bei anspruchsvolleren Verfahren der Textgenerierung komplexer ausgestaltet angewandt werden: Begriffe oder Satzteile werden aus Listen entnommen, aneinandergereiht und grammatikalisch korrekt angepasst (grammatische Realisierung). Ein dafür oft angewendetes Verfahren ist die Generierung mit Markow-Ketten.[21] Es entsteht syntaktisch korrekter Text, der sinnhaltig wirken kann, tatsächlich aber Blödsinn (englisch

bullshit

) ist, weil Phrasendreschmaschinen nicht auf Wissen über die Bedeutung verwendeter Partikel zugreifen. So lässt sich scherzhaft beispielsweise leere Rhetorik von Fachliteratur persiflieren.

Geschichte

Abgesehen von mechanischen Phrasendreschmaschinen als Vorläufern und abgesehen von frühesten Versuchen, Texte durch Software zu generieren, beginnt die erste Phase natürlichsprachiger Generierung mit Programmen, die zur Textgenerierung schematisch auf Wissen zugreifen, das bereits in Textform abgelegt ist. So funktionierte ab 1963 BASEBALL, ein Interface zu den Baseballdaten der amerikanischen Baseballiga und SAD SAM, ein Interface zur Eingabe von Verwandtschaftsbeziehungen, das bereits auf Fragen antwortete. Nach mehreren anderen Arbeiten in dieser Richtung erschien 1966 ELIZA, programmiert von Joseph Weizenbaum. In der zweiten Phase ist das Wissen in Fakten und Regeln kodiert: LUNAR, 1972, ist das Interface zur Datenbank über die Mondprobensammlung der Apollo 11 Mission. PARRY, 1975, simuliert einen Paranoiden im Gespräch mit einem Psychiater. ROBOT, 1977, ist das erste kommerzielle Frage-Antwort-System. VIE-LANG, 1982, von Ernst Buchberger, ist ein Dialogsystem in deutscher Sprache, das Sätze aus einem semantischen Netz generiert.[22] HAM-ANS, 1983, von Wolfgang Hoeppner, ist ein Dialogsystem in deutscher Sprache, das beispielsweise einen Hotelmanager simuliert.[23]

Literatur

  • Ehud Reiter, Robert Dale: Building natural language generation systems. Cambridge University Press, Cambridge 2000, ISBN 0-521-62036-8.
  • Helmut Horacek: Textgenerierung in: Kai-Uwe Carstensen, Ralf Klabunde et al. (Hrsg.): Computerlinguistik und Sprachtechnologie. Heidelberg: Spektrum Akademischer Verlag, 3. Auflage, 2010, ISBN 978-3827420237, S. 436–465
  • John Bateman: Angewandte natürlichsprachliche Generierungs- und Auskunftsysteme in: Ralf Klabunde et al. (Hrsg.): Computerlinguistik und Sprachtechnologie. s. o. Heidelberg 2010 S. 633–641
  • Rico Schwank: Analyse von Konzepten und Methoden zur Generierung von natürlichsprachlichen Texten aus formalen Daten Diplomarbeit. Otto-von-Guericke-Universität Magdeburg, Fakultät für Informatik[24]
  • Patrick Reichelt: Einführung in den Roboterjournalismus: Bedrohung oder Chance?. Tectum Wissenschaftsverlag, Baden-Baden 2017, ISBN 978-3828840591.
  • Stefan Weber: Roboterjournalismus, Chatbots & Co.: Wie Algorithmen Inhalte produzieren und unser Denken beeinflussen. Heise Medien, Hannover 2018, ISBN 978-3957881045.

Weblinks

Einzelnachweise

  1. Ehud Reiter: Has a consensus NL generation architecture appeared, and is it psychologically plausible? in: Proceedings of the 7th. International Workshop on Natural Language generation (INLGW ’94). (PDF) McDonald, D. and Meteer, M., 1994, S. 163–170, abgerufen am 26. März 2010 (englisch).
  2. Projekt KIT-MARKER. Technische Universität Berlin, 1999, S. 1,3, archiviert vom Original; abgerufen am 13. März 2010.
  3. Michael Hess: Einführung in die Computerlinguistik (I). (PDF) (Nicht mehr online verfügbar.) Universität Zürich, Institut für Computerlinguistik, 2005, S. 44,4 f, archiviert vom Original am 31. März 2007; abgerufen am 26. März 2010.  Info: Der Archivlink wurde automatisch eingesetzt und noch nicht geprüft. Bitte prüfe Original- und Archivlink gemäß Anleitung und entferne dann diesen Hinweis.@1@2Vorlage:Webachiv/IABot/www.ifi.unizh.ch
  4. a b c Wiebke Ramm und Claudia Villiger: Wissenschaftliche Textproduktion und Fachdomäne. Sprachliche Realisierung wissenschaftlicher Inhalte in verschiedenen Fachdisziplinen und ihre computerlinguistische Modellierung. In: Knorr, Dagmar/ Jakobs, Eva-Maria (Hrsg.): Textproduktion in elektronischen Umgebungen. Textproduktion und Medien Bd. 2. Lang Verlag, Frankfurt/Main 1997, ISBN 3-631-30970-8, S. 214,2 (rwth-aachen.de [PDF; abgerufen am 15. März 2010]).
  5. Susanne Göpferich, Dr. phil., Dipl.-Übers.: Der Technische Redakteur als Global Player: Berufspraxis und Anforderungen an die Ausbildung der Zukunft. Fachzeitschrift Technische Dokumentation 2000/05, 19. Dezember 2003, S. 1,7, abgerufen am 14. März 2010: „Ein multilinguales Generierungssystem, das mit den entsprechenden textsortenspezifischen Vertextungsregeln ausgestattet ist, kann diese verschiedenen Textsorten zum selben Produkt jeweils aus einer einzigen Wissensbasis heraus generieren.“
  6. Stats Monkey. (Nicht mehr online verfügbar.) Intelligent Information Laboratory - Northwestern University, 2009, archiviert vom Original am 16. November 2010; abgerufen am 24. März 2010 (englisch).  Info: Der Archivlink wurde automatisch eingesetzt und noch nicht geprüft. Bitte prüfe Original- und Archivlink gemäß Anleitung und entferne dann diesen Hinweis.@1@2Vorlage:Webachiv/IABot/infolab.northwestern.edu
  7. Alec Radford et al.: Language Models are Unsupervised Multitask Learners 2018
  8. http://www.text-gold.de/fundstuecke/roboterjournalismus-denken-und-schreiben/, abgerufen am 29. Oktober 2014
  9. Von Computern autonom geschaffene Werke: Urheberrechtlich schützenswert? Abgerufen am 8. November 2018.
  10. Julian Maitra: Medien : Die Roboterjournalisten sind schon unter uns. In: welt.de. 15. Mai 2014, abgerufen am 7. Oktober 2018.
  11. Andreas Graefe: Guide to Automated Journalism. Columbia Journalism Review, New York City 2016 (Abgerufen am 14. Februar 2018).
  12. Roboterjournalisten retten die Lokalpresse. Wer rettet uns davor? Abgerufen am 20. November 2018 (deutsch).
  13. Josef Karner: Mailüfterl, Al Chorezmi und Künstliche Intelligenz: Ein Gespräch mit dem Computerpionier Heinz Zemanek. Telepolis, 8. August 1999, S. 1, archiviert vom Original am 22. Januar 2005; abgerufen am 20. März 2010 (Frage 20 ff): „Weizenbaum hat aber nicht Intelligenz oder gar Bewusstsein erschaffen, sondern gezeigt, mit welch einfachen Mitteln man einen Betrachter glauben machen kann, er hätte es mit Intelligenz zu tun.“
  14. Sizing the potential value of AI and advanced analytics | McKinsey. Abgerufen am 26. Mai 2021.
  15. Gartner Predicts 2019: In Search of Balance in Marketing. Abgerufen am 26. Mai 2021 (englisch).
  16. Roberto Simanowski: Automatisches Schreiben. X C U L T, abgerufen am 15. März 2010 (Referat bei der Fachtagung Narrationen in der Medienkunst).
  17. Reinhard Doehl: Der Kreis um Max Bense. Abgerufen am 16. März 2010 (Abteilung: Künstliche Poesie, Abschnitt 5).
  18. Reinhard Doehl: Der Kreis um Max Bense. Abgerufen am 16. März 2010 (Abteilung: Künstliche Poesie, Abschnitt 6).
  19. Miriam Stürner: David Link, Poetry Machine (version 1.0), 2001-2002. (Nicht mehr online verfügbar.) ZKM, Zentrum für Kunst und Medientechnologie Karlsruhe, archiviert vom Original am 20. November 2010; abgerufen am 15. März 2010.  Info: Der Archivlink wurde automatisch eingesetzt und noch nicht geprüft. Bitte prüfe Original- und Archivlink gemäß Anleitung und entferne dann diesen Hinweis.@1@2Vorlage:Webachiv/IABot/www.zkm.de
  20. David Link: LoveLetters_1.0. MUC=Resurrection. A Memorial. (Nicht mehr online verfügbar.) Archiviert vom Original am 28. März 2010; abgerufen am 15. März 2010.  Info: Der Archivlink wurde automatisch eingesetzt und noch nicht geprüft. Bitte prüfe Original- und Archivlink gemäß Anleitung und entferne dann diesen Hinweis.@1@2Vorlage:Webachiv/IABot/www.alpha60.de
  21. Andreas Stuhlmüller: Texten mit Markov. (Nicht mehr online verfügbar.) 14. Februar 2005, archiviert vom Original am 17. Juni 2010; abgerufen am 24. März 2010.  Info: Der Archivlink wurde automatisch eingesetzt und noch nicht geprüft. Bitte prüfe Original- und Archivlink gemäß Anleitung und entferne dann diesen Hinweis.@1@2Vorlage:Webachiv/IABot/www.aiplayground.org
  22. VIE-GEN. NLG Systems Wiki, 17. November 2009, abgerufen am 15. März 2010 (englisch).
  23. Jörg Roth:: Einführung in natürlichsprachliche Textgenerierung. 1989, abgerufen am 14. März 2010.
  24. Rico Schwank: Analyse von Methoden zur Generierung natürlichsprachlicher Texte aus formalen Daten. Otto-von-Guericke-Universität Magdeburg, abgerufen am 13. März 2010.