KI-Bewertung bei Essay-Prüfungen: wo sie hilft und wo sie schadet
Was LLMs gut bewerten
Moderne LLMs sind erstaunlich gut bei:
- Prüfung der Rubrik-Abdeckung. „Hat die Bewerberin alle fünf Fragen beantwortet?" Trivial zu beantworten.
- Oberflächliche Qualität. Grammatik, Struktur, Länge, zitierte Belege – alles zuverlässig bewertbar.
- Konsistenz über alle Einreichungen. Anders als eine menschliche Prüferin bei Einreichung Nr. 50 ist der Maßstab des LLM bei Einreichung Nr. 500 derselbe wie bei Nr. 1.
- Erste Beobachtungen. Hervorheben markanter Stärken oder Schwächen, die eine menschliche Prüferin bestätigen soll.
Für diese Aufgaben verkürzt LLM-Bewertung zuverlässig die Prüfzeit um 60–80 %, ohne dass Fairness verloren geht – sofern eine menschliche Übersteuerung dazukommt.
Was LLMs schlecht bewerten
- Fachliche Tiefe. Ein LLM, das einen Essay aus dem Bereich Senior-Systems-Engineering liest, kann nicht zuverlässig erkennen, ob die architektonischen Entscheidungen richtig waren. Es wird selbstbewusst klingenden Unsinn produzieren.
- Originalität und Einsicht. LLMs überbelohnen flüssig formulierte, aber generische Antworten und unterbewerten knappe, scharfsichtige Antworten.
- Ton und Urteilsvermögen. „Wirkt diese Bewerberin überheblich oder angemessen entschlossen?" Menschen erkennen das; LLMs nicht.
- Alles, wo die Identität der Bewerberin durchschimmern könnte. Lebensläufe, Namen und Hochschulzugehörigkeit verzerren LLM-Urteile messbar.
Das Muster, das funktioniert
- KI als erster Durchgang. Das LLM produziert vorläufige Punktzahlen pro Rubrikdimension und eine Liste von Beobachtungen. Anonymisiere die Eingabe vorher.
- Mensch als Entscheidungsträger. Eine Prüferin liest die Bewerbungsleistung, die KI-Ausgabe und bestätigt oder übersteuert sie. Sie wird gezwungen, sich aktiv einzubringen statt abzunicken, weil die Rubrik Anker enthält, die Belege verlangen.
- Regelmäßiges Audit. Stichprobenartige Auswertung der vom Menschen übersteuerten Fälle pro Monat. Wenn das LLM systematisch in eine Richtung übersteuert wird (etwa zu strenge Bewertung von Junior-Kandidaten), justiere den Prompt.
Was man nie tun darf
- Automatisch ablehnen allein auf Grundlage der KI-Punktzahl.
- Der Prüferin die KI-Punktzahl zuerst zeigen. Lass sie unabhängig bewerten, dann vergleicht ihr. Ankerwirkung ist real.
- KI-Bewertung bei Aufgaben einsetzen, deren Aufgabenstellung extreme Variation zulässt – offene kreative Aufgaben. Dort macht die Varianz den Sinn zunichte.
Der Bewertungsdienst von ClarityHire implementiert dieses Muster standardmäßig für Essays und Take-home-Einreichungen. Die Prüferin sieht die Rubrik, die Bewerbungsleistung und die KI-Ausgabe nebeneinander – eine Übersteuerung ist Pflicht, um eine endgültige Punktzahl abzugeben.