Skip to content
Deutsch
All posts

Wenn KI beim Korrigieren lieber stoppt

Automatisches Bewerten klingt oft wie ein Entweder-oder. Entweder korrigiert ein System alles allein, oder Menschen prüfen weiter jeden einzelnen Fall. Zwei aktuelle Papers aus unserem Forschungsteam zeigen ein anderes Bild. Im Alltag zählt eine praktischere Frage: Kann ein Modell sichere von unsicheren Antworten trennen?

Was im Alltag wirklich riskant ist

Bei Kurzantworten reicht ein guter Durchschnittswert nicht. Wer fachlich falsche Antworten durchwinkt, vergibt Punkte zu Unrecht. Wer zu streng bewertet, benachteiligt richtige Antworten. Genau an dieser Stelle wird es für Lehrende, Prüfungsteams und Lernsysteme heikel.

Das ICALT-Paper schaut deshalb nicht nur auf einen Gesamtwert. Es trennt klar zwischen falschem Durchwinken und falschem Ablehnen. Außerdem prüft es, ob ein Modell nur die Fälle selbst entscheiden sollte, bei denen es sich wirklich sicher ist.

Paper 1: Nur sichere Antworten freigeben

Für die ICALT-Studie wurden Kurzantworten aus einem Bachelor-Kurs zu Versionskontrolle mit Git ausgewertet. Im analysierten Teil lagen 1.056 Antworten mit menschlicher Referenz vor, verteilt über neun offene Fragen. Acht verschiedene Sprachmodelle wurden mit zwei Prompt-Varianten getestet.

Die wichtigste Beobachtung ist simpel: Man muss nicht jede Antwort automatisch bewerten. Sobald nur Antworten mit hoher Selbstsicherheit freigegeben wurden, stieg die Übereinstimmung mit der menschlichen Referenz. In der strengen Einstellung lag sie bei 94,0 Prozent. Dann wurden aber nur noch 80,0 Prozent der Antworten ohne menschlichen Eingriff entschieden.

Noch vorsichtiger wurde der Ablauf, wenn nicht ein einzelnes Modell entschied, sondern alle acht Modelle zum gleichen Ergebnis kommen mussten. In diesem Fall stieg die Übereinstimmung auf 97,8 Prozent. Automatisch entschieden wurden dann nur noch 61,0 Prozent der Antworten. Das ist kein Fehler des Systems, sondern eine klare Betriebsregel: sichere Fälle gehen direkt durch, Grenzfälle landen beim Menschen.

Das Paper zeigt auch die Kehrseite. Schon veränderte Anweisungen an das Modell verschieben das Verhältnis zwischen falschem Durchwinken und falschem Ablehnen. Wer solche Systeme einsetzt, braucht deshalb Nachprüfungen nach Prompt-Updates und keine blinde Hoffnung auf einen einmal guten Testwert.

Paper 2: Ein Benchmark zeigt, was unter Druck trägt

Das zweite Paper stammt aus der BEA 2026 Shared Task zur deutschsprachigen Bewertung von Kurzantworten. Vereinfacht gesagt ist das ein offizieller Vergleichswettbewerb: Alle Teams bekommen denselben Datensatz und dieselbe Aufgabe. Hier mussten Antworten anhand eines Bewertungsrasters als richtig, teilweise richtig oder falsch eingestuft werden.

Der Datensatz umfasst 7.899 gelabelte Antworten zu 78 Fragen aus MINT-Fächern. Die WSE-Research-Einreichung kombinierte drei Bausteine: ein klar formuliertes Bewertungsraster im Prompt, automatisch ausgewählte Vergleichsbeispiele aus ähnlichen Antworten und fein angepasste offene Qwen-Modelle in mehreren Größen. Dazu kam für einzelne Tracks eine gewichtete Kombination mehrerer Modelle.

Das Ergebnis ist für den Praxisblick spannend, weil kein einzelner Trick gereicht hat. Auf dem Trial-Set lag das beste fein angepasste Open-Source-Modell vor dem besten promptbasierten kommerziellen Modell. In den offiziellen Ergebnissen reichte der Ansatz für Platz 2 auf drei von vier Tracks und Platz 3 auf dem verbleibenden Track. Der Abstand zur Spitze lag je nach Track nur bei 0,006 bis 0,017 Punkten.

Für bekannte Fragetypen half die Modellkombination. Für neue, bisher ungesehene Fragen war das größte fein angepasste Modell stärker. Genau darin steckt die eigentliche Aussage des Papers: Gute KI-Bewertung entsteht nicht aus einem großen Modellnamen, sondern aus Bewertungsraster, Beispielen und sauberer Anpassung an die Aufgabe.

Was man daraus mitnehmen kann

Die beiden Papers erzählen dieselbe Geschichte in zwei unterschiedlichen Umgebungen. Das ICALT-Paper zeigt, wie ein vorsichtiger Betriebsmodus aussehen kann. Das BEA-Paper zeigt, welche Bausteine unter Benchmark-Bedingungen wirklich tragen.

  • Ein gutes Bewertungssystem braucht eine saubere Ausweichroute für unsichere Fälle.
  • Bewertungsraster und echte Vergleichsbeispiele sind oft wichtiger als der nächste Modellwechsel.
  • Ein guter Testwert ist kein Freifahrtschein. Neue Fragen, neue Prompts und neue Betriebsregeln müssen wieder geprüft werden.

Mehr zum architektonischen Unterbau steht bereits in unserem Beitrag zur ICWE 2026. Wer über KI in Bewertung, Training oder Zertifizierung nachdenkt, kann den Austausch gern über eine ScormIQ-Demo starten.