Strukturiertes Interview vs. Arbeitsprobe: Was sagt die Leistung besser voraus?
Die kurze Antwort
Beide stehen ganz oben in den Charts der prognostischen Validität. In Sackett et al. (2022) liegen die korrigierten Validitätskoeffizienten bei rund r = 0,42 für strukturierte Interviews und r = 0,33 für Arbeitsproben. Die älteren Schätzungen von Schmidt und Hunter (1998) sahen Arbeitsproben etwas höher; das Feld streitet seit dreißig Jahren über exakte Zahlen.
Die praktische Konsequenz hat sich nicht geändert: Das sind die beiden Methoden, auf denen man einen Einstellungs-Loop aufbauen sollte. Fast alles andere ist nur Beiwerk.
Die interessante Frage ist nicht "Welche ist abstrakt besser", sondern "Welche ist besser für die Entscheidung, die du tatsächlich zu treffen versuchst?"
Was jede Methode tatsächlich misst
Strukturiertes Interview
Der Kandidat beantwortet ein festes Set jobrelevanter Kompetenzfragen. Jeder Kandidat bekommt dieselben Fragen. Jede Antwort wird gegen dieselbe verankerte Rubrik bewertet. Die Aufgabe des Interviewers ist Eliciting und Scoring, nicht Entdecken.
Was es gut misst:
- Verbales Denken unter Druck. Kann der Kandidat laut denken, eine Antwort strukturieren und auf Folgefragen reagieren?
- Vergangenes Verhalten in ähnlichen Situationen. Verhaltensbasierte Fragen ("Erzählen Sie mir von einem Mal, als…") greifen den tatsächlichen Track-Record ab.
- Kommunikation. Kann diese Person mit dem Team realistisch zusammenarbeiten?
Was es schlecht misst:
- Handwerkliches Können. Wer großartigen Code beschreiben kann, ist nicht automatisch jemand, der großartigen Code schreibt.
- Anhaltende Fokussierung auf eine nicht-triviale Aufgabe. Zwanzigminütige Abschnitte sagen dir nicht, wer ein Problem zwei Stunden im Kopf halten kann.
Arbeitsprobe
Der Kandidat führt eine repräsentative Aufgabe aus dem realen Job aus. Designdetails findest du in unserem Guide zum Arbeitsproben-Design.
Was es gut misst:
- Direkte Arbeitsleistung. Das ist genau der Punkt. Du beobachtest das, wofür du einstellst.
- Ergebnisqualität. Das Artefakt existiert. Du kannst es bewerten.
- Tool-Geläufigkeit. Kennt sich diese Person tatsächlich mit Editor, Sprache und Framework aus?
Was es schlecht misst:
- Kommunikation und Zusammenarbeit. Eine Solo-Arbeitsprobe sagt dir nichts darüber, wie jemand mit Kollegen denkt.
- Anpassungsfähigkeit an neue Probleme. Eine 90-minütige Aufgabe ist notwendigerweise eng gefasst; sie kann nicht prüfen, wie ein Kandidat eine offene Herausforderung angehen würde.
Wo sich die Methoden überschneiden — und wo nicht
Drei Validitätsstudien — Roth et al. (2005), Schmidt und Hunter (1998) sowie Sackett et al. (2022) — sind sich einig, dass strukturierte Interviews und Arbeitsproben inkrementelle Validität übereinander hinzufügen. Übersetzt: Beide zu kombinieren ist deutlich besser, als eine alleine zu nutzen, weil sie nicht dasselbe Konstrukt messen.
Die relevante Tabelle:
| Frage | Strukturiertes Interview | Arbeitsprobe |
|---|---|---|
| Können sie den Job machen? | schwaches Signal | starkes Signal |
| Können sie zusammenarbeiten? | starkes Signal | kein Signal |
| Können sie Trade-offs kommunizieren? | starkes Signal | schwaches Signal |
| Können sie unter realen Constraints liefern? | schwaches Signal | starkes Signal |
| Adverse-Impact-Bedenken | mittel | gering |
| Time-to-Deliver im Loop | gering | mittel-hoch |
| Aufwand für den Kandidaten | gering | hoch |
Wann das strukturierte Interview gewinnt
- Senior-Führungsrollen. Du stellst nach Urteilskraft über Jahre ein, nicht nach einem konkreten Artefakt. Strukturierte Verhaltensinterviews sind hier das richtige Primärwerkzeug.
- Reine Kollaborationsrollen (Manager, Coach, EM-Track). Der Job ist das Gespräch.
- Wenn die Arbeit ethisch nicht simulierbar ist. Manche Jobs — Therapeut, Finanzberater, bestimmte medizinische Rollen — lassen sich nicht ehrlich in eine 90-Minuten-Probe quetschen.
- Sensibler Kandidaten-Pool. Wenn eine lange Arbeitsprobe qualifizierte Kandidaten aus dem Funnel drängen würde, ist ein knappes strukturiertes Interview der richtige Trade.
Wann die Arbeitsprobe gewinnt
- IC-Handwerksrollen. Software-Engineers, Designer, Datenanalysten, Texter. Das Artefakt zeigt dir, was das Interview nur annähern kann.
- High-Stakes-Einstellungen, in denen Fehleinstellungen teuer sind. Der Aufwand der Arbeitsprobe amortisiert sich schnell.
- Rollen, in denen Interviewer systematisch uneinig sind. Eine Rubrik auf einem konkreten Artefakt diszipliniert den Dissens schneller als eine Rubrik auf einem Gespräch.
- Rollen mit Sorge um rechtliche Verteidigbarkeit. Eine Arbeitsprobe ist eine direkte Stichprobe des Jobs. Gerichte und Aufsichtsbehörden verstehen das.
Warum die meisten Teams beides nutzen sollten
Hast du nur einen Slot im Loop, nimm die Arbeitsprobe für Handwerksrollen und das strukturierte Interview für Führungsrollen. Hast du zwei Slots — und die meisten Loops haben das — nutze beide und designe sie so, dass sie unterschiedliche Kompetenzen prüfen.
Ein typischer starker Engineering-Loop:
- Screen: 30-minütiges strukturiertes Interview (Motivation, aktuelles Projekt, Kommunikation).
- Take-Home oder On-Site-Arbeitsprobe: 90 Minuten, in sich abgeschlossen, in 15 Minuten anhand der Rubrik benotet.
- Walk-Through-Interview zur Arbeitsprobe. (Warum das wichtig ist.)
- Strukturierte Verhaltensrunde zu Zusammenarbeit, Ownership, Konflikt.
Gesamt: ~4 Stunden Kandidatenzeit. Zwei der vier Runden laufen die validesten Methoden. Die anderen beiden quetschen Extrasignal aus dem Artefakt und prüfen Kollaborationsdimensionen, die eine Arbeitsprobe nicht erreichen kann.
Der Integritäts-Vorbehalt
In 2026 ist eine unbeaufsichtigt gemachte Arbeitsprobe kein privates Artefakt mehr. KI-Coding-Assistenten können einen glaubwürdigen ersten Entwurf der meisten Take-Home-Aufgaben produzieren. Ein hochvalider Test ist kein hochvalides Signal, wenn der Kandidat die Antwort nicht selbst erzeugt hat.
Drei Maßnahmen:
- Koppel jeden Take-Home an ein Walk-Through-Interview.
- Nutze Integritätssignale — Tastendruck-Muster, Code-Kohärenz, Tab-Wechsel — um auffällige Sessions zur genaueren Prüfung zu markieren.
- Setze auf On-Site- oder Live-Arbeitsproben, wenn die Einsätze die zusätzliche Logistik rechtfertigen.
Wie ClarityHire passt
ClarityHire liefert beide Hälften des Stacks:
- Strukturierte Scorecards mit verankerten Rubriken, identisch für jeden Interviewer.
- Arbeitsprobenvorlagen mit Sandboxes, die echten Code ausführen, und Rubriken je Sprache.
- Integritätssignale auf Take-Home-Einreichungen, damit die Validität der Arbeitsprobe den Kontakt mit KI überlebt.
Wähl die richtige Methode für die Rolle. Dann fahre sie für jeden Kandidaten gleich. Die Disziplin ist das, was Validität wirklich erzeugt.