Prüfungsdesign

KI-Bewertung bei Essay-Prüfungen: wo sie hilft und wo sie schadet

ClarityHire Team(Editorial)2 min read

Was LLMs gut bewerten

Moderne LLMs sind erstaunlich gut bei:

  • Prüfung der Rubrik-Abdeckung. „Hat die Bewerberin alle fünf Fragen beantwortet?" Trivial zu beantworten.
  • Oberflächliche Qualität. Grammatik, Struktur, Länge, zitierte Belege – alles zuverlässig bewertbar.
  • Konsistenz über alle Einreichungen. Anders als eine menschliche Prüferin bei Einreichung Nr. 50 ist der Maßstab des LLM bei Einreichung Nr. 500 derselbe wie bei Nr. 1.
  • Erste Beobachtungen. Hervorheben markanter Stärken oder Schwächen, die eine menschliche Prüferin bestätigen soll.

Für diese Aufgaben verkürzt LLM-Bewertung zuverlässig die Prüfzeit um 60–80 %, ohne dass Fairness verloren geht – sofern eine menschliche Übersteuerung dazukommt.

Was LLMs schlecht bewerten

  • Fachliche Tiefe. Ein LLM, das einen Essay aus dem Bereich Senior-Systems-Engineering liest, kann nicht zuverlässig erkennen, ob die architektonischen Entscheidungen richtig waren. Es wird selbstbewusst klingenden Unsinn produzieren.
  • Originalität und Einsicht. LLMs überbelohnen flüssig formulierte, aber generische Antworten und unterbewerten knappe, scharfsichtige Antworten.
  • Ton und Urteilsvermögen. „Wirkt diese Bewerberin überheblich oder angemessen entschlossen?" Menschen erkennen das; LLMs nicht.
  • Alles, wo die Identität der Bewerberin durchschimmern könnte. Lebensläufe, Namen und Hochschulzugehörigkeit verzerren LLM-Urteile messbar.

Das Muster, das funktioniert

  1. KI als erster Durchgang. Das LLM produziert vorläufige Punktzahlen pro Rubrikdimension und eine Liste von Beobachtungen. Anonymisiere die Eingabe vorher.
  2. Mensch als Entscheidungsträger. Eine Prüferin liest die Bewerbungsleistung, die KI-Ausgabe und bestätigt oder übersteuert sie. Sie wird gezwungen, sich aktiv einzubringen statt abzunicken, weil die Rubrik Anker enthält, die Belege verlangen.
  3. Regelmäßiges Audit. Stichprobenartige Auswertung der vom Menschen übersteuerten Fälle pro Monat. Wenn das LLM systematisch in eine Richtung übersteuert wird (etwa zu strenge Bewertung von Junior-Kandidaten), justiere den Prompt.

Was man nie tun darf

  • Automatisch ablehnen allein auf Grundlage der KI-Punktzahl.
  • Der Prüferin die KI-Punktzahl zuerst zeigen. Lass sie unabhängig bewerten, dann vergleicht ihr. Ankerwirkung ist real.
  • KI-Bewertung bei Aufgaben einsetzen, deren Aufgabenstellung extreme Variation zulässt – offene kreative Aufgaben. Dort macht die Varianz den Sinn zunichte.

Der Bewertungsdienst von ClarityHire implementiert dieses Muster standardmäßig für Essays und Take-home-Einreichungen. Die Prüferin sieht die Rubrik, die Bewerbungsleistung und die KI-Ausgabe nebeneinander – eine Übersteuerung ist Pflicht, um eine endgültige Punktzahl abzugeben.

ki-bewertungessay-prüfungenrubrikautomatisierung

Verwandte Artikel