XSTEP - die XML-Version von TUSTEP

+++ Aktuelles: Werkstattbericht zu XSTEP in Würzburg +++

Ausgangssituation und Projektziel

Das Programmpaket TUSTEP wird seit über 35 Jahren am Rechenzentrum der Universität Tübingen entwickelt und gepflegt. TUSTEP ist eine Skriptsprache und ein Satzsystem für die Anwendung vor allem in den Geisteswissenschaften und ist im philologischen Umfeld bis heute unerreicht in Hinblick auf Leistungsumfang, Performanz und Flexibilität. TUSTEP wendet sich dabei v.a. an Forschungsbereiche, bei denen die Texte selbst Gegenstand der Untersuchungen sind, also z.B. sprachwissenschaftliche Analysen, statistische Auswertungen, Textvergleiche, linguistische Untersuchungen etc. Das angeschlossene Satzsystem ist mit derzeit ca. 500.000 Seiten Umbruch/ Minute auf einem handelsüblichen Arbeitsplatz-Rechner immer noch das mit Abstand performanteste Umbruchsystem der Welt.

Weltweit wird TUSTEP an über 60 Universitäten und Forschungseinrichtungen eingesetzt.
Nun leidet die Akzeptanz von  TUSTEP aber an einer Sache: Die Syntax der TUSTEP-Programme ist seit 35 Jahren gewachsen, ist proprietär, nicht intuitiv, gilt vielen als schwer zu erlernen und nicht mehr zeitgemäß  - der philologische Nachwuchs behilft sich daher häufig lieber mit weit weniger leistungsfähigen, aber besser bedienbaren Tools wie z.B. Perl.

Ein zentrale Eigenschaft  von TUSTEP ist, mit (fast) jeder Form von Textdaten umgehen zu können, also nicht auf XML-strukturierte Daten angewiesen zu sein. Damit ist TUSTEP auch  für ein Arbeitsfeld prädestiniert, das noch immer nicht befriedigend besetzt ist, nämlich aus den verschiedensten Quelldaten skriptbasiert XML-Daten zu erzeugen.

Tobias Ott, wiss. MA an der Hochschule der Medien in Stuttgart und Geschäftsführer der Firma pagina GmbH in Tübingen, hat im vergangenen Jahr eine Konzeptidee entwickelt, die TUSTEP-Syntax in XML abzubilden, um den vollen Leistungsumfang dieses Programmpaketes in einer modernen, zum Selbststudium geeigneten Umgebung anbieten zu können. Die Vorteile einer solchen XML-basierten Syntax liegen auf der Hand: Unterstützung eines offenen Standards, weite Verbreitung, Programmierung in jedem XML-Editor, automatische Syntaxprüfung, Code Completion und klare Schnittstellen sind nur die naheliegendsten Argumente für diese Arbeit. Die Tatsachen, dass der eigentliche Programmkern (der „Prozessor“) wohl nicht oder kaum verändert werden muss und dass TUSTEP mittlerweile Open Source ist, befördern das Vorhaben ebenfalls.

Die Vorstellung dieser Idee auf zwei Tagungen im Januar diesen Jahres in Blaubeuren und Trier ergab ein mehr als eindeutiges Stimmungsbild: Sämtliche Teilnehmer unterstützen das Vorhaben und viele haben auch ihre Mitarbeit zugesagt. Darunter ist neben den erfahrenen TUSTEP-Anwendern auch die Forschungsinitiative TextGrid (http://www.textgrid.de/), die eine Chance darin sieht, die über das TextGridLab zugänglichen Leistungen mit TUSTEP-Skripten  wesentlich zu erweitern. Eine Umsetzung der TUSTEP-Syntax nach XML würde die Integration dramatisch erleichtern.

Am 7. und 8. Mai 2010 fand auf Einladung von Prof.  Dr. Marko Hedler und Dipl.Ing Tobias Ott (beide HdM) und Prof.  Dr. Wilhelm Ott (Universität Tübingen) das erste offizielle Treffen von Interessenten für die Umstellung der TUSTEP-Syntax nach XML (Arbeitstitel: XSTEP) an der HdM statt. Bei dem Gründungstreffen ging es sowohl um technische als auch um organisatorische Fragen.

Das vollständige Protokoll der Sitzung finden Sie hier.

 

 

verantwortlich für diese Seite: Tobias Ott
letzte Änderung: 08.09.2010