Recruiting & Einstellung

Validität und Fairness von Project Manager Tests

ClarityHire Team(Editorial)2026-05-098 min read

Die Frage, die Hiring-Leader stellen sollten

Du hast eine PM-Bewertung erstellt. Szenario-Problem, Priorisierung, Risikobewertung, verhaltensbasiertes Interview. Kandidaten mit Scores von 4+ schneiden auf der Arbeit gut ab. Kandidaten mit 2,5 oder darunter scheitern. Aber hast du das verifiziert? Und ist die Bewertung fair?

Dieser Beitrag zeigt, was Validität für PM-Bewertungen bedeutet, wie man sie misst, und wie Fairness in der Praxis aussieht.

Was Validität bedeutet

Eine Bewertung ist valide, wenn sie das Jobresultat vorhersagt, das dir wichtig ist. Für PM-Einstellung ist das: "Liefert diese Person Projekte rechtzeitig ab, verwaltet Risiken gut und baut Teamvertrauen auf?"

Es gibt drei Arten:

1. Prädiktive Validität

Sagt der Bewertungs-Score zukünftige Jobperformance voraus?

Wie man es misst:

Stelle 10+ PMs mit deiner Bewertung ein.
Nach 6 Monaten, bewerte sie bei Jobperformance (360-Review, Manager-Feedback, Projektleistungs-Metriken).
Vergleiche Bewertungs-Score mit Performance-Rating.
Wenn hohe Scorer gut perform und niedrige Scorer kämpfen, hast du prädiktive Validität.

Was gut aussieht:

Korrelation von 0,6+ zwischen Bewertungs-Score und Performance-Rating (stark).
Korrelation von 0,4-0,6 (moderat, noch nützlich).
Korrelation unter 0,3 (niedrig, die Bewertung ist nicht prädiktiv).

Echter Datenpunkt: Teams mit szenariobasierten PM-Bewertungen sehen typisch 0,5-0,7 Korrelation. Teams mit unstrukturierten verhaltensbasierten Interviews sehen 0,2-0,3. Der Unterschied ist real.

2. Konstrukt-Validität

Misst die Bewertung tatsächlich, was sie behauptet zu messen?

Für PM-Bewertung behauptest du zu messen:

Entscheidungsfindung unter Einschränkung
Priorisierungs-Urteil
Risik-Bewusstsein
Einfluss auf Stakeholder

Wie man es verifiziert: Zeigen Kandidaten, die bei "Entscheidungsfindung" hoch bewertdet sind, tatsächlich Entscheidungsfindung auf der Arbeit? Oder sind sie nur gut darin, Tests zu machen?

Rote Flagge: Ein Kandidat bekommt 4,5 im Szenario (Entscheidungsfindung), aber auf der Arbeit dazu, zu zögern und Konsens zu suchen. Die Bewertung hat nicht gemessen, was wichtig ist.

Wie man es verhindert: Nach der Einstellung, lass den Einstellungsmanager den Kandidaten auf jeder der vier Dimensionen unabhängig bewerten (bei 3 und 6 Monaten). Vergleiche ihre Bewertung mit dem Bewertungs-Score. Wenn es ein großes Loch gibt, misst deine Bewertung die falsche Sache.

3. Inhalts-Validität

Enthält die Bewertung realistische Probleme, denen Kandidaten tatsächlich gegenüberstehen?

Beispiele hoher Inhalts-Validität:

"Du hast einen Kunden, der droht zu gehen, es sei denn, du lieferst bis 1. Oktober" (echtes PM-Problem).
"Priorisiere diese Features angesichts dieser Einschränkungen" (echtes PM-Problem).
"Drei Teams sind parallel, aber eines ist eine Abhängigkeit; identifiziere die Risiken" (echtes PM-Problem).

Beispiele niedriger Inhalts-Validität:

"Schreibe einen 10-seitigen Projektplan von Grund auf" (PMs machen das nicht im Tagesgeschäft).
"Erkläre Agile vs. Waterfall" (prüft Wissen, nicht Urteil).
"Erzähl mir von einem Mal, als du ein Team verwaltet hast" (verhaltensbasiert, nicht Arbeitsbeispiel).

Wie man es misst: Zeige deine Bewertung drei PMs, die derzeit im Job sind. Frage: "Sehen diese Probleme aus wie das, mit dem du tatsächlich konfrontiert wirst?" Wenn sie nein sagen, prüfst du etwas anderes als Jobperformance.

Validität ist nicht automatisch vorhanden

Viele Organisationen nehmen an: "Wenn die Bewertung für uns gut aussieht, muss sie prädiktiv sein." Das stimmt nicht.

Häufige Bewertungs-Muster, die aussehen rigoros, aber nicht prädiktiv sind:

Muster 1: Detaillierte Gantt-Chart-Aufgabe. Sieht aus: professionell, organisiert, technisch. Misst tatsächlich: Fähigkeit, Projektmanagement-Software zu nutzen, nicht PM-Urteil. Prädiktive Validität: niedrig (0,2-0,3).

Muster 2: Unstrukturiertes verhaltensbasiertes Interview. Sieht aus: umfassend, lernt die Person kennen. Misst tatsächlich: Interview-Sicherheit und Storytelling-Fähigkeit. Prädiktive Validität: niedrig (0,2-0,3).

Muster 3: Fallstudie ohne Live-Debriefing. Sieht aus: Kandidaten denken tief über ein Problem nach. Misst tatsächlich: Consulting-Schreiben und Analyse. Prädiktive Validität: mittel (0,4-0,5).

Muster 4: Szenario-Problem + Live-Priorisierung + Risikobewertung. Sieht aus: rigoros und teuer. Misst tatsächlich: Entscheidungsfindung, Urteil und Systemdenken. Prädiktive Validität: hoch (0,6-0,7).

Wie du die Validität deiner eigenen Bewertung verifizierst

Schritt 1: Definiere, was "gute Performance" auf der Arbeit bedeutet

Bevor du überhaupt prüfst, ob die Bewertung es vorhersagt, definiere das Ergebnis:

Zeitplan: PMs liefern Meilensteine zum zugesagten Datum ab oder geben frühzeitig Warnung.
Umfang: PMs liefern den Umfang ab, den sie zugesagt haben, oder rescopen explizit mit Stakeholder-Zustimmung.
Risiko: PMs bringen Abhängigkeitsrisiken proaktiv an die Oberfläche, nicht nachdem sie explodieren.
Team: PMs behalten Team-Engagement und psychologische Sicherheit durch Veränderung.

Mache diese verhaltensbasiert, nicht vage. "Liefert pünktlich ab" ist verhaltensbasiert. "Ist ein guter Leader" ist vage.

Schritt 2: Stelle mit deiner Bewertung ein und verfolge Ergebnisse

Stelle 10-15 PMs über 6 Monate ein. Verfolge ihre Performance bei 3, 6 und 12 Monaten mit der obigen verhaltensbasierten Definition.

Wie man misst:

360-Review (Manager, Skip-Level, Peer) verankert in den vier Verhaltensweisen.
Projektleistungs-Metriken (pünktliche Lieferquote, Umfangsänderungen, Team-Verweildauer).
Skip-Level-Gespräche: "Wie ist die Kommunikation dieses PMs? Wirst du von Risiken überrascht?"

Schritt 3: Vergleiche Bewertungs-Scores mit Ergebnissen

Erstelle eine einfache Kalkulationstabelle:

Kandidat	Bewertungs-Score	Job-Performance-Rating (bei 6 Mo)	Übereinstimmung?
Alice	4,2	4,1	Ja
Bob	3,5	3,4	Ja
Carol	3,0	2,8	Ja
Dan	4,8	3,2	Nein (Überprognose)
Eva	2,8	2,1	Ja

Wenn die meisten Zeilen übereinstimmen, hast du Validität. Wenn mehrere Zeilen Unstimmigkeiten zeigen, ist deine Bewertung nicht prädiktiv.

Schritt 4: Behebe Unstimmigkeiten

Wenn ein hoher Scorer (4,5 in der Bewertung) schlecht perform (2,5 auf der Arbeit):

Sie haben möglicherweise Hilfe beim Szenario bekommen.
Die Bewertung misst möglicherweise etwas anderes als Jobperformance (z.B. du bist gut darin, Tests zu machen, aber nicht in Stakeholder-Kommunikation).
Sie können in einer Rolle oder Umgebung gelandet sein, die nicht zu ihnen passt (als PM für eine Scrum-Master-Rolle eingestellt).

Wenn ein niedriger Scorer (2,8 in der Bewertung) gut perform (4,0 auf der Arbeit):

Deine Bewertung kann zu hart sein oder misst die falsche Sache.
Sie können von einer anderen Rolle transferiert sein und haben auf der Arbeit gelernt.

Sowieso, untersuche und passe deine Bewertung an.

Fairness: Ist die Bewertung voreingenommen?

Validität ist über Prognose. Fairness ist über gleiche Chancen.

Eine Bewertung kann valide sein (sagt Performance voraus), aber unfair (befestigt gegen bestimmte Gruppen). Beispiel: ein Szenario in Geschäftsjargon geschrieben, der vertraut ist für Ivy-League-Kandidaten, aber nicht für Community-College-Kandidaten. Beide Gruppen können PM gut machen, aber eine Gruppe ist unfair gefiltert.

Häufige Fairness-Probleme in PM-Bewertungen

Problem 1: Annahme eines spezifischen Industrie-Hintergrunds. Szenario nimmt Wissen von SaaS-Metriken an. Kandidaten aus Fertigung, Gesundheitswesen oder Regierung sind benachteiligt. Lösung: Nimm keine Domain-Wissen an. Prüfe PM-Denken, nicht Domain-Fakten.

Problem 2: Zeitgesteuerte Szenarien, die Menschen ohne Betreuungsverantwortung bevorteiligen. "30-Minuten-Response, fällig um 17 Uhr." Kandidaten, die Kindertagesstätte oder Altenpflege jonglieren, sind benachteiligt. Lösung: Asynchrone Bewertungen mit flexiblen Fristen. 24 Stunden zum Antworten ist angemessen.

Problem 3: Sprach-/Jargon-Barrieren. Szenario benutzt spezifische PM-Terminologie (WIP, Burn-Down, etc.) ohne sie zu definieren. Nicht-Muttersprachler sind benachteiligt. Lösung: Nimm keine PM-Erfahrung an. Definiere Begriffe. Prüfe Denken, nicht Vokabeln.

Problem 4: Live-Verbale-Komponente, die Extrovertierte bevorteiligt. Priorisierungs-Problem wird verbal in Echtzeit gemacht. Introvertierte, die am besten in Schrift denken, sind benachteiligt. Lösung: Biete schriftliche oder verbale Option für Priorisierung. Beide sind valide.

Problem 5: Szenarien, die eine spezifische Kultur-Übereinstimmung annehmen. Szenario nimmt Start-up-Mentalität an: "Wir sind agil und liefern schnell." Kandidaten aus risiko-avers Industrien sehen dies als unverantwortlich und bewerten niedriger. Lösung: Mache Szenarien industrie-agnostisch. Prüfe PM-Denken, nicht kulturelle Werte.

Wie man auf Fairness prüft

Nach du deine Bewertung bei 20+ Kandidaten durchgelaufen hast:

Gruppiere Kandidaten nach Demografie (wenn du verfolgst: Geschlecht, Rasse, Bildungshintergrund, etc.).
Vergleiche durchschnittliche Bewertungs-Scores über Gruppen.
Wenn eine Gruppe systematisch niedriger bewertet wird, untersuche:
- Performt die Gruppe wirklich niedriger auf der Arbeit? (Prüfe gegen tatsächliche Performance-Daten.)
- Oder misst die Bewertung etwas anderes als Job-Bereitschaft? (Frage diese Gruppe: "Fühlte sich die Bewertung fair an?")

Was du suchst: Gleiche durchschnittliche Scores über Gruppen, oder wenn es einen Unterschied gibt, sollte dieser Unterschied dem Job-Performance-Unterschied entsprechen (nicht größer sein).

Beispiel:

Gruppe A bewertet 3,8 in der Bewertung, perform 3,7 auf der Arbeit. ✓ Fair.
Gruppe B bewertet 3,2 in der Bewertung, perform 3,5 auf der Arbeit. ✗ Bewertung unter-prognostiziert; etwas stimmt mit der Bewertung nicht, nicht mit der Gruppe.

Rote Flaggen für Ungültigkeit oder Unfairness

Ungültigkeit:

Deine hohen Scorer (4+) performieren nicht konsistent gut auf der Arbeit.
Du kannst nicht artikulieren, was die Bewertung misst (wenn du nicht sagen kannst, weißt du wahrscheinlich nicht).
Du hast Jobperformance nicht empirisch gemessen (du rätst nur).

Unfairness:

Bestimmte Gruppen bewerten systematisch niedriger, und du hast nicht verifiziert, dass sie auf der Arbeit unterperformen.
Du benutzt Sprache oder Szenarien, die einen spezifischen Hintergrund oder Kultur annehmen.
Kandidaten aus nicht-traditionellen PM-Hintergründen (Bootcamp, interne Beförderungen) sind in der Bewertungsphase gefiltert.

Baue valide und faire Bewertung

Die besten PM-Bewertungen:

Nutzen Arbeitsbeispiele (Szenario + Priorisierung), um tatsächliches Urteil zu prüfen, nicht Wissen.
Sind industrie-agnostisch oder prüfen über mehrere Industrien, so dass kein Hintergrund angenommen wird.
Sind asynchron wenn möglich, um unterschiedliche Arbeitsstile und Verantwortungen zu berücksichtigen.
Definieren, was Erfolg aussieht (das Rubric) und dann verifizieren, dass dieses Rubric Jobperformance vorhersagt.
Sind audited auf Fairness — führe die Zahlen alle 6-12 Monate durch.

Eine Bewertung, die valide und fair ist, garantiert nicht, dass ein PM erfolgreich sein wird. Aber es verbessert dramatisch deine Chancen.

Wie du deine PM-Bewertung validierst

Wenn du eine standardisierte PM-Bewertung nutzt, frage den Anbieter: "Wie ist die prädiktive Validität dieser Bewertung?" Echte Anbieter haben Studien durchgelaufen. Wenn sie nicht haben, ist das eine rote Flagge.

Wenn du deine eigene Bewertung gebaut hast, führe die einfache vier-Schritte-Validierung oben durch (definiere Erfolg, stelle ein und verfolge, vergleiche Scores mit Ergebnissen, behebe Unstimmigkeiten). Es dauert 6 Monate, aber rechnet sich in Einstellungs-Genauigkeit.

Project ManagerTest ValidityFairnessAssessment Design