GermEval Fragebogen

Der folgende Fragebogen hat zwei Hauptziele:

Der Fragebogen soll den Organisierenden der Task Hilfestellung geben, ethisch problematische Aspekte frühzeitig zu erkennen und so angemessen diskutieren oder beheben zu können.
Der Fragebogen dient dazu, strukturierte Informationen über die geplante Task zusammenzustellen, auf deren Grundlage die GSCL entscheidet, ob sie die Task als GermEval bewirbt.

Task

Was ist die Fragestellung der Task?
Welche Sprache(n) werden adressiert?
Für welche Einsatzgebiete können die in der Shared Task entwickelten Systeme genutzt werden?
Wer profitiert wie vom Einsatz solcher Systeme?
Wie könnten solche Systeme missbraucht werden?
Wenn die Technologie funktioniert, wer könnte beeinträchtigt werden?
Wenn die Technologie nicht funktioniert, wer wird beeinträchtigt?.
*Wenn die geplante Shared Task (oder bestimmte Teilaspekte der Task) unter ethischem Gesichtspunkt als problematisch angesehen werden kann, was spricht dafür, sie trotzdem durchzuführen? Und wie können die mit der Task verbundenen Risiken minimiert werden?

Daten

Erzeugung

Wer hat die Daten für welchen Zweck erzeugt?
Aus welchen Quellen stammen die Daten und wie wurden sie gesammelt?

Zusammenstellung

Wie sind die Daten aufgebaut?
Wie viele Instanzen beinhaltet der Datensatz?
Sind die Daten repräsentativ für die Population, zu der geforscht wird?
Welche Bias könnten die Daten enthalten und welchen Einfluss haben diese auf die Ergebnisse?

Annotation

*Wie wurden die Daten annotiert? (Was wird vom Annotationsschema erfasst? Wer hat die Daten annotiert? Angaben zum Annotationsprozess, Einwilligung der Annotatoren zur Veröffentlichung, etc.)

Verfügbarkeit

Werden die Daten frei verfügbar sein?
Wie werden sie verteilt?
*Welche Lizenz erhalten die Daten?

Darüber hinaus empfehlen wir Organisator*innen auch zusätzlich ein vollständiges Datasheet [Gebru et al., 2020] zu veröffentlichen, um die Daten noch besser zu kontextualisieren.

Evaluation

Die Organisierenden der Shared Task sollten sicherstellen, dass die Evaluation der Shared Task transparent, nachvollziehbar und fair ist, und dass die gewählten Evaluationsmaße bestmöglich das erfassen, was in der Beschreibung der Task als Untersuchungsgegenstand definiert wurde.
Um Teams, deren Systeme nur niedrige bzw. negative Ergebnissen erzielten, zu motivieren, diese zu publizieren, könnten z.B. zusätzlich zu den besten Systemen auch Teams ausgezeichnet werden, die eine besonders gründliche und systematische Fehleranalyse präsentieren.
Organisierende der Shared Task sollten nicht selbst an der Task teilnehmen, da sie über internes Wissen über die in der Task verwendeten Daten und mögliche Bias verfügen, das ihnen einen Vorteil im Wettbewerb verschaffen könnte.

Sind die Evaluationskriterien zu Beginn der Task bekannt?
Werden die Daten und Evaluationsskripte nach Abschluss der Task der Forschungsgemeinde zugänglich gemacht, um die Replikation der Ergebnisse sowie weitere Forschung zum Thema zu ermöglichen?
Ist ein Closed-Track geplant, in dem alle Teams dieselben Ausgangsvoraussetzungen haben?
Ist ein Track geplant, der Analyse-Qualität über Leaderboard-Scores stellt?