SFB 538 SFB 538

Kontakt

Forschung

MitarbeiterInnen

Aktuelles

Service

   

Zb

Mehrsprachige Datenbank


[English Version]


Mitarbeit:

Thomas Schmidt (thomas.schmidt@uni-hamburg.de)

Kai Wörner


Ausführlichere Informationen und Materialien zum Projekt "Mehrsprachige Datenbank" finden Sie auf der Projekthomepage.


Fragestellung

Viele der dreizehn Teilprojekte des SFB "Mehrsprachigkeit" arbeiten empirisch auf der Grundlage von Aufnahmen gesprochener Sprache, die durch eine computergestützte Transkription der wissenschafltichen Analyse zugänglich gemacht werden. Die dabei verwendeten Transkriptionskonventionen, die Software-Werkzeuge, mittels derer sie umgesetzt werden, und die Formate, in denen die Transkriptionen gespeichert werden, sind dabei eben so divers wie die theoretischen Ansätze und die untersuchten Einzelsprachen der jeweiligen Teilprojekte. Dies führt zu Schwierigkeiten beim Datenaustausch und bei der Sicherstellung der langfristigen Archivierung der Daten, die Bird/Liberman (2001) so beschreiben:

"While the utility of existing tools, formats and databases is unquestionable, their sheer variety - and the lack of standards able to mediate among them - is becoming a critical problem. Particular bodies of data are created with particular needs in mind, using formats and tools tailored to those needs, based on the resources and practices of the community involved. Once created, a linguistic database may subsequently be used for a variety of unforeseen purposes, both inside and outside the community that created it. Adapting existing software for creation, update, indexing, search and display of ,foreign' databases typically requires extensive re-engineering. Working across a set of databases requires repeated adaptations of this kind."

Das Projekt "Mehrsprachige Datenbank verfolgt daher im Wesentlichen zwei Ziele:

Zum einen sollen die zahlreichen am SFB vorhandenen digitalen Sprachdaten aus der derzeitigen Vielzahl von projektspezifischen und größtenteils technisch veralteten Formaten in eine Form überführt werden, in der sie weitestgehend theorie-, sprach-, software- und betriebssystemunabhängig und somit kurzfristig flexibel (weiter-) verarbeitbar und langfristig angemessen archivierbar sind.

Zum anderen soll mit der mehrsprachigen Datenbank ein neuartiges Werkzeug entwickelt werden, das die computergestützte Verwaltung und quantitative Auswertung solch großer Datenmengen ermöglicht.

Ansatz:

Ausgehend von einer Analyse der Struktur der vorhandenen Daten wurde EXMARaLDA (EXtensible MARkup Language for Discourse Annotation) entwickelt, eine auf dem Konzept der Annotationsgraphen (Bird/Liberman 2001) basierende XML-Sprache zur inhaltsbezogenen Kodierung von Diskurstranskriptionen. EXMARaLDA dient zunächst als "Interlingua" zwischen den vorhandenen Datenformaten und Schnittstelle zwischen diesen und einer (relationalen) Datenbank. Andererseits kann es aber, zusammen mit ebenfalls in diesem Projekt entwickelten Ein- und Ausgabewerkzeugen, als eigenständiges System zur computergestützten Diskurstranskription angesehen werden.

Architektut "Mehrsprachige Datenbank"

Literatur

Bird, Steven / Liberman, Mark (2001): A formal framework for linguistic annotation. In: Speech Communication 33(1,2), pp. 23-60.

Schmidt, Thomas (2001): The transcription system EXMARaLDA: An application of the annotation graph formalism as the Basis of a Database of Multilingual Spoken Discourse. In: Proceedings of the IRCS Workshop on Linguistic Databases, Philadelphia, 219-227.

Schmidt, Thomas (2002a): Gesprächstranskription auf dem Computer: das System EXMARaLDA. in: Gesprächsforschung (Online-Zeitschrift zur verbalen Interaktion) 3. Freiburg, 1-23.

Schmidt, Thomas (2002b): EXMARaLDA - ein System zur Diskurstranskription auf dem Computer. In: Arbeiten zur Mehrsprachigkeit, Serie B (34). Hamburg.

Schmidt, Thomas (2002c): Visualizing linguistic annotation as Interlinear Text. In Vorbereitung (als AZM).

Schmidt, Thomas (2002d): EXMARaLDA - ein System zur computergestützten Diskurstranskription. Erscheint in: Mehler, Alexander / Lobin, Henning (2002): Automatische Textanalyse. In Vorbereitung.

Letzte Änderung: 18.07.2003