CL4DH: Computerlinguistik für Digital Humanities

Status: ruhend

Leitung: Anette Frank, Anke Lüdeling
E-Mail: frank@cl.uni-heidelberg.de, Anke.Luedeling@rz.hu-berlin.de

Ziel des Arbeitskreises ist es, die Leistungsfähigkeit computerlinguistischer Werkzeuge und Verfahren für den Einsatz in den Digital Humanities zu befördern. Hierfür sollen spezielle Bedürfnisse, Fragestellungen und Interessensgebiete aus den Digital Humanities in eine gemeinsame ‘Forschungsagenda’ aufgenommen werden. Gleichzeitig werden Desiderata der aktuellen computerlinguistischen Forschung für das Deutsche analysiert, um durch Community-Aktivitäten die Qualität computerlinguistischer Werkzeuge für den Einsatz in den Digital Humanities zu verbessern.

Thematische Schwerpunkte

  • Aufbau von gemeinsam nutzbaren Ressourcen und Werkzeugen für hoch qualitative automatische Sprachverarbeitung des Deutschen.
    Dies umfasst u.a.:
    • Zusammenstellung frei verfügbarer Korpora verschiedener Genres von hoher Qualität in ausreichender Quantität und ausgewogener Zusammenstellung;
    • automatische und/oder manuelle Annotation der Korpora auf verschiedenen linguistischen Ebenen (Mehrebenenannotation) anhand etablierter Standards;
    • Entwicklung anerkannter Annotationsrichtlinien für linguistische Annotationen, insbesondere für wenig erforschte Varietäten des Deutschen, u.a. historische, gesprochene oder literarische Sprache, ‘neue’ Sprachvarietäten wie internetbasierte Kommunikation, oder (Fremdsprachen)Lernersprache;
    • Nutzbarmachung existierender computerlinguistischer Werkzeuge in offenen Infrastrukturen für die computerlinguistische Fachgemeinschaft und Forscher aus den Digital Humanities (siehe z.B. WebLicht);
    • Identifikation neuer Werkzeuge und Ressourcen, die über offene Infrastrukturplattformen zur gemeinsamen Nutzung bereitgestellt werden sollen.
  • Entwicklung von Anwendungsszenarien für computerlinguistische Verarbeitung in den Geisteswissenschaften (Digital Humanities)
    • Aufnahme von Desiderata aus den Digital Humanities
    • Weiterentwicklung computerlinguistischer Standards und Tools für Forschungsfragen in den Digital Humanities

Der AK versteht sich als Forum des Austauschs: durch Bereitstellung von Informationenen zu aktuellen Veranstaltungen, durch Organisation von thematischen Workshops und Community-Aktivitäten, sowie Unterstützung von Aktivitäten im Themenbereich des AK.

Meldungen zu News, Anfragen und Anregungen nehmen die Leiterinnen des AK gerne entgegen!

Gegenwärtige und geplante Aktivitäten

1. Werkzeuge für vollständigen ‘Annotation-Life-Cycle’. Ein besonderes Desideratum, das von der CLARIN-D F-AG7 ‘Computerlinguistik und angewandte Sprachwissenschaft’ identifiziert wurde, ist der infrastrukturelle Support für einen vollständigen Annotation-Life-Cycle, bestehend aus:

  • Manuelle Annotation mit Hilfe interaktiver web-basierter Annotationswerkzeuge
  • Induktion und Retraining von Sprachmodellen für automatische Annotation
  • Interaktive Korrektur automatischer Annotationen
  • Auswertung der Annotationen durch Anfragen, Statistiken, Visualisierung

Auf Basis dieser Analyse wurden aus Mitteln der F-AG7 (CLARIN-D, BMBF) zwei Kurationsprojekte gefördert. Die Projekte stellen ihre Arbeitsergebnisse der Community zur freien Verfügung.

2. Sammlung frei (für Forschung) verfügbarer Korpora zu Nicht-Standard-Varietäten. Unter Mitwirkung interessierter Forscher sollen Vorschläge zur Erstellung eines frei verfügbaren ‘repräsentativen’ Korpus des Deutschen erarbeitet werden. Diese Vorschläge sollen in Kooperation mit CL-Infrastrukturprojekten in praktisch nutzbaren Korpussammlungen umgesetzt werden.

3. Shared Tasks. Mit Hilfe einer webbasierten interaktiven Annotationsplattform sowie etablierten Standards und Empfehlungen für die linguistische Annotation von Nicht-Standard-Varietäten sollen Shared Tasks zu speziellen Annotationsaufgaben entwickelt werden. Auch hier sollen interessierte Forscher aus Computerlinguistik und Sprachwissenschaft zur Mitwirkung eingeladen werden.

4. Erprobung von Annotationswerkzeugen und Guidelines in DH Projekten. Der AK wird Bedürfnisse, Forschungsfragen und Interessensgebiete aus den Digital Humanities aufnehmen und Perspektiven für ihre Umsetzung durch computerlinguistische Methoden entwickeln.

Aktuelles

Links zu Infrastrukturprojekten (sprachtechnologische Ressourcen, insb. für Deutsch)