Prüfungsdesign

Sind Coding-Tests noch sinnvoll, wenn Bewerberinnen KI-Assistenten haben?

ClarityHire Team(Editorial)2026-05-073 min read

Die Frage, die jede Hiring-Verantwortliche stellt

Wenn eine Bewerberin jede Standard-Coding-Frage in ein LLM einfügen und eine fast perfekte Antwort bekommen kann — was misst die Prüfung dann eigentlich noch? Bei algorithmischen LeetCode-Tests im alten Stil ist die ehrliche Antwort: nicht viel.

Das heißt aber nicht, dass Coding-Prüfungen tot sind. Es heißt, dass ein bestimmter Stil von Coding-Prüfung tot ist. Die Stile, die überleben — und wertvoller werden, nicht weniger wertvoll —, sind andere.

Was weiterhin funktioniert

1. Live-Debugging in unbekanntem Code

Die Bewerberin bekommt eine kleine, kaputte Codebasis und soll den Bug finden und beheben. LLMs helfen weniger, als man annimmt, weil der Bug in der Interaktion zwischen konkreten Dateien steckt und sie den Code lesen, nicht generieren muss. Tools beschleunigen gute Engineers und kompensieren keine schwachen.

2. Take-home plus Walk-through

Eine 90-minütige Take-home-Aufgabe produziert ein Artefakt. Ein 30-minütiger Walk-through prüft, ob die Bewerberin darüber argumentieren kann. Zusammen bleiben sie hochsignalig, auch wenn KI beim Artefakt geholfen hat — denn der Walk-through prüft Urteilsvermögen über die Arbeit, und das kann die KI der Bewerberin nicht übertragen.

Das ist das vorherrschende Muster bei Teams, die sich gut angepasst haben: nicht beim Artefakt gegen KI kämpfen, sondern bei der Erklärung darauf testen.

3. Systemdesign

LLMs beantworten Systemdesign-Fragen in der Form einer Antwort, aber sie verfehlen konsequent die Trade-off-Argumentation, das Reasoning über Fehlerszenarien und das Kostenbewusstsein, das erfahrene Engineers mitbringen. Eine an einer Rubrik verankerte Systemdesign-Runde mit aktiver Interviewer-Rückfrage bleibt hochsignalig.

4. Pair-Programming an einer echten Aufgabe

Kollaborative Arbeit in Echtzeit. Bewertet werden Kommunikation, Aufnahme von Feedback und Urteilsvermögen. KI-Unterstützung im Moment ist okay — das Signal liegt darin, was man damit anstellt.

Was nicht mehr funktioniert

1. Algorithmische LeetCode-Fragen

Wenn die Frage durch Einfügen in ChatGPT lösbar ist, filterst du danach, wer Zugang zu ChatGPT hat. Außer Dienst stellen.

2. Take-homes ohne Walk-through

Eine reine Artefakt-Bewertung ist nicht zu retten. Entweder du fügst einen Walk-through hinzu, oder du stoppst Take-homes bei wichtigen Entscheidungen.

3. MCQ-Trivia

„Wie ist die Zeitkomplexität von X" — isoliert beantwortet. Leicht nachzuschlagen, leicht von der KI zu bekommen, misst kein Urteilsvermögen. Nur als Screen-Stage-Filter für klare Grundlagenlücken einsetzen, nicht als entscheidendes Signal.

Was hinzukommen sollte

Prozess-Spuren als Integritätssignale

Bei Take-homes Tastendruck- und Edit-Iterationsmuster aufzeichnen. ClarityHire macht das standardmäßig. Klassifiziert nicht als gut oder schlecht — zeigt Muster, die mit handgeschriebenem Code unvereinbar sind, damit die Reviewerin im Walk-through nachhaken kann.

Mündliche Verteidigung

Mache Verteidigungsfähigkeit zum Bestandteil jeder Prüfung. Die Bewerberin, die KI-Werkzeuge effektiv einsetzen und ihre eigene Arbeit erklären kann, ist die, die du willst. Wer ohne Verständnis eingefügt hat, scheitert an der mündlichen Verteidigung — egal, wie das Artefakt aussieht.

Realistische Probleme

Weg von Rätseln, hin zu Problemen, die nach Arbeit aussehen. Echte Probleme haben Mehrdeutigkeit, Kontext, Trade-offs. KI-Assistenten helfen am meisten bei gut spezifizierten Problemen und am wenigsten bei mehrdeutigen — genau die Asymmetrie, die du brauchst.

Der größere Rahmen

Coding-Prüfungen waren nie als Messung von „Kannst du Code ohne Hilfe schreiben" gedacht. Sie sollten Job-Performance vorhersagen. 2026 schließt Job-Performance den guten Einsatz von KI-Assistenten ein. Eine Prüfung, die so tut, als gäbe es diese Assistenten nicht, misst die falsche Sache.

Die richtige Prüfung im Jahr 2026 misst: Kannst du Arbeit produzieren, kannst du deine Arbeit erklären, kannst du erkennen, wenn die KI falsch liegt, kannst du Mehrdeutigkeit aushalten? Das Erste ist teilweise automatisierbar. Die anderen drei nicht.

Behalte die Prüfungen. Gestalte sie neu. Das Signal ist immer noch da — es liegt nur an anderen Stellen.

coding-testkillmprüfungsdesign