Arbeitskreis Texttechnologie

Leitung: Henning Lobin, Maik Stührenberg
E-Mail: Henning.Lobin@germanistik.uni-giessen.de, maik.stuehrenberg@uni-bielefeld.de

Der AK Texttechnologie befaßt sich vorrangig mit der Integration von Standards der Textstrukturierung (Standard Generalized Markup Language, XML, DSSSL, HyTime) und linguistischer Datenverarbeitung. Ziel ist es, dadurch die Entwicklung innovativer Textmodelle und inhaltsorientierter Textverarbeitung- und nutzung zu ermöglichen.

In den achtziger Jahren ist mit der Standard Generalized Markup Language (SGML) eine Basis für die medienunabhängige Beschreibung von Textstrukturen und Annotationsssystemen entstanden, die in den letzten Jahren zu einer Vielzahl von Anwendungen - HTML ist darunter wohl die bekannteste -, Software-Systemen und abgeleiteten Standard geführt hat. Obwohl aber eine der Wurzeln von SGML in der Linguistik zu finden ist, sind zum Gebiet der maschinellen Sprach- und Textverarbeitung bisher kaum Verbindungen geschaffen worden. Der Arbeitskreis Texttechnologie hat sich zum Ziel gesetzt, die Kopplung von SGML-basierter Informationsverarbeitung, Linguistik und Sprachverarbeitung voranzutreiben, um damit die Entwicklung innovativer Textmodelle und inhaltsorientierer Textverarbeitung und -nutzung zu ermöglichen.

If there is one single aspect that characterizes SGML [...] it is that it puts the computing power of information technology behind the all-encompassing descriptive power of human language. [Liora Alschuler, ABCD ... SGML . 1995, 1]

Im Fahrwasser von SGML sind eine Reihe weiterer Standards entstanden, die für diese Zielsetzung ebenfalls von Bedeutung sind:

  • Die Document Style Semantics and Specification Language (DSSSL) erlaubt es, die Überführung von SGML-Instanzen in beliebige Präsentationsformate einschließlich anderer SGML-Zielformate zu definieren.
  • Die Hypermedia/Time-based Structuring Language (HyTime) stellt eine Konvention dar, wie Verweise in und zwischen Texten sowie zeitliche Abläufe und Synchronisationen in SGML-Instanzen auszudrücken sind.
  • Für die Nutzung von SGML, DSSSL und HyTime im WorldWideWeb sind darüber hinaus vereinfachte Versionen entwickelt worden oder gerade in der Entstehung: die Extensible Markup Language (XML), eine Vereinfachung von SGML, die Extensible Linking Language (XLL), eine Teilmenge von HyTime, sowie die Extensible Style Language (XSL), eine starke Vereinfachung von DSSSL.

Veranstaltungen

  • 4.9.2001: Workshop "Werkzeuge zur automatischen Analyse und Verarbeitung von Texten: Formate, Tools, Software-Systeme" an der Universität Trier
  • 15.3.1999: Arbeitstreffen an der Universität Bielefeld
  • 9.7.1999, Frankfurt: Texttechnologie-Schwerpunkt auf der Jahrestagung der GLDV an der Universität Frankfurt
  • 21.9.1999, Heidelberg: Gemeinsamer Workshop mit den AKs Hypermedia und Lexikographie zum Thema: "SGML/XML-Einsatz in der Lexikographie"