Einstellungsstrategie

Die prognostische Validität von Einstellungsmethoden: Was die Forschung wirklich sagt

ClarityHire Team(Editorial)2026-05-124 min read

Warum die "prognostische Validität" die einzige Zahl ist, die zählt

Prognostische Validität ist die Korrelation, ausgedrückt als Koeffizient r zwischen 0 und 1, zwischen dem Ergebnis einer Bewertung und der späteren Arbeitsleistung. Ein r von 0,0 ist ein Münzwurf. Ein r von 0,5 ist tatsächlich nützlich. Ein r von 0,7 nähert sich der Obergrenze dessen, was in realen, verrauschten Umgebungen messbar ist.

Fast jede Einstellungsdebatte — "Sollten wir einen Take-Home einführen?", "Sind Persönlichkeitstests die Mühe wert?", "Ist das Lebenslauf-Screening kaputt?" — kollabiert in eine einzige Frage, sobald Validitätszahlen vorliegen: Sagt diese Methode tatsächlich vorher, wer zur Spitze gehören wird?

Dieser Beitrag ist die kurze, maßgebliche Version dieser Literatur.

Die wegweisende Quelle

Jahrzehntelang war die Referenz die Metaanalyse von Schmidt und Hunter aus dem Jahr 1998, "The Validity and Utility of Selection Methods in Personnel Psychology", die etwa fünfundachtzig Jahre angesammelter Forschung synthetisierte. Sie ordnete Prädiktoren und ihren inkrementellen Beitrag über allgemeine Intelligenztests hinaus.

2022 veröffentlichten Sackett, Zhang, Berry und Lievens eine wichtige Korrektur ("Revisiting Meta-Analytic Estimates of Validity in Personnel Selection") mit dem Argument, dass frühere Studien Restriction-of-Range überkorrigiert und damit die Spitze des Rankings künstlich aufgebläht hätten. Ihre Neuschätzungen ziehen die meisten Methoden nach unten, lassen aber die Reihenfolge weitgehend intakt.

Die Zahlen unten sind die korrigierten Schätzungen, gerundet zur besseren Merkbarkeit. Lies sie als relative Rangfolge, nicht als endgültige Wahrheit.

Die Tabelle, die jeder kennen sollte

Methode	Ungefähre Validität (r)
Arbeitsprobentests	0,33
Strukturierte Interviews	0,42
Kognitive Leistungstests	0,31
Integritätstests	0,31
Fachwissenstests	0,40
Gewissenhaftigkeit (Persönlichkeit)	0,19
Unstrukturierte Interviews	0,19
Bildungsjahre	0,10
Berufsjahre	0,09
Referenzauskünfte	0,13
Graphologie / Handschriftanalyse	0,02

Mehrere Dinge stechen heraus:

Strukturierte Interviews und Arbeitsproben stehen ganz oben. Zusammen bilden sie die tragenden Säulen jedes vertretbaren Einstellungs-Loops.
Unstrukturierte Interviews — die Standardvariante der meisten Teams — schlagen Bildungs- und Berufsjahre nur knapp. "Wir haben sie getroffen und sie kamen großartig rüber" ist fast ein Münzwurf.
Referenzauskünfte sind schwach. Sie sind nützlich, um Katastrophen auszuschließen, nicht um Gewinner auszuwählen.

Was die Rangfolge operativ bedeutet

Drei Implikationen, die die meisten Teams nicht ausreichend verinnerlichen:

1. Struktur schlägt Länge

Ein 30-minütiges strukturiertes Interview mit verankerten Bewertungsskalen schlägt ein 90-minütiges "Erzählen Sie mal von sich"-Gespräch. Die Struktur — gleiche Fragen, gleiche Rubrik, gleiche Dimensionen — leistet mehr Arbeit als der Zeiteinsatz.

2. Arbeitsproben sind die wirkungsstärkste einzelne Ergänzung

Die meisten Loops enthalten irgendeine Form von Interview. Weit weniger enthalten eine gut gestaltete Arbeitsprobe. Eine hinzuzufügen ist meist der größte verfügbare Validitätssprung — mit dem Zusatznutzen, rechtlich besser verteidigbar zu sein, weil sie direkt aus dem Job stammt.

3. Kognitive Tests funktionieren, haben aber Adverse Impact

Kognitive Leistungstests sagen die Performance über Rollen hinweg recht gut vorher. Sie produzieren aber auch tendenziell größere demografische Score-Gaps als Arbeitsproben, weshalb die meiste moderne Einstellungsguidance jobinhaltliche Bewertungen bevorzugt, wenn möglich.

"Maßgebliche Quelle" — wo man weiterlesen sollte

Für Praktiker, die die Primärquellen wollen, drei, die man kennen sollte:

Schmidt, F. L., & Hunter, J. E. (1998). The validity and utility of selection methods in personnel psychology: Practical and theoretical implications of 85 years of research findings. Psychological Bulletin, 124(2), 262–274.
Sackett, P. R., Zhang, C., Berry, C. M., & Lievens, F. (2022). Revisiting meta-analytic estimates of validity in personnel selection: Addressing systematic overcorrection for restriction of range. Journal of Applied Psychology, 107(11), 2040–2068.
Die SIOP Principles (Society for Industrial and Organizational Psychology) — praxisnahe Guidance zu Validierung und Fairness.

Das Sackett-Paper von 2022 ist die aktuellste maßgebliche Quelle. Wenn du eine Zahl in einem Einstellungs-Design-Dokument zitierst, zitiere sie von dort.

Was das für deinen Loop bedeutet

Die kürzeste vertretbare Empfehlung:

Füge eine Arbeitsprobe hinzu für jede Rolle, in der du eine repräsentative Aufgabe in unter drei Stunden gestalten kannst.
Mache jedes Interview zu einem strukturierten Interview — gleiche Fragen, gleiche Rubrik, Bewertungen vor Empfehlungen erfasst.
Behandle unstrukturierte "Vibes-Check"-Runden als sozial, nicht prädiktiv. Halte sie kurz und gewichte sie niedrig.
Streiche Referenzauskünfte aus den Go-/No-Go-Entscheidungen. Nutze sie als finale Sanity-Schicht.

Schon diese Änderungen heben einen typischen Loop von einem prognostizierten r im 0,2er-Bereich in die 0,5er. Der zusammengesetzte Effekt über ein Jahr Einstellungen ist enorm.

Wie ClarityHire passt

ClarityHire ist genau um diese Prioritätenreihenfolge gebaut. Die Standard-Scorecard-Vorlage ist strukturiert. Die Bewertungsvorlagen sind arbeitsprobenförmig, nicht Trivia-förmig. Integritätssignale halten Take-Home-Arbeitsproben in einer KI-Welt ehrlich. Die Produkt-Meinungen sind nachgelagerte Folge der Forschung — nicht umgekehrt.

Wähle Methoden nach Validität. Alles andere ist Stil.

prognostische Validitätstrukturierte InterviewsArbeitsprobeEinstellungsforschung