Recruiting & Einstellung

Validität und Fairness von Product Manager Tests

ClarityHire Team(Editorial)2026-05-098 min read

Das Validitäts-Problem beim PM-Einstellen

Die meisten PM-Bewertungen messen eine von drei Dingen: (1) wie viel sie eine Fallstudie gelernt haben, (2) wie poliert ihre Kommunikation ist, (3) wie bekannt ihr früherer Arbeitgeber war. Keine davon sagt das Urteil voraus.

Schlimmer noch, sie sind nicht fair. Ein Kandidat, der sich eine 3-stündige Take-Home-Aufgabe leisten kann, während er/sie vollzeitig arbeitet, hat einen Vorteil. Ein Kandidat, der zu Stanford ging, hat Glaubwürdigkeit. Ein introvertierter Kandidat wird bei einem Live-Interview niedriger bewertet, obwohl er besser denkt.

Echte Validität bedeutet: Deine Bewertung sagt Jobperformanz voraus. Echte Fairness bedeutet: Sie sagt gleich über Demografische Gruppen voraus (Geschlecht, Rasse, Hintergrund, Sozioökonomischer Status).

Die meisten PM-Bewertungen sind beides nicht. Wenn du eine PM-Bewertung aufbaust, fange mit den Grundlagen: Lies wie man Product Manager bewertet und überprüfe Product Manager Test Beispielfragen, um zu sehen, wie gültige Bewertungs-Szenarien aussehen.

Was eine PM-Bewertung ungültig macht

1. Es misst Kommunikations-Politur, nicht das Urteil

Ungültig: Eine polierte Fallstudie Abschrift. Schönes Figma-Deck. Glattes Live-Interview.

Warum? Jemand kann ein ausgezeichneter Kommunikator und ein mittelmäßiger PM sein. Umgekehrt könnte ein großartiger PM auf der Kamera unbeholfen sein oder messy schreiben. Du misst Präsentation, nicht Denken.

Gültig: Die Substanz hinter den Worten. Identifizierten sie das tatsächliche Problem? Stellten sie die richtigen Klärungsfragen? Könnte man ein Loch in ihre Logik bohren?

2. Es erfordert Kontext, den du nur hättest, wenn du bei FAANG oder einem großen Startup arbeitetest

Ungültig: „Entwerfe die Monetarisierungsstrategie für ein B2B-SaaS-Produkt." (Klingt generisch, aber geht von Wissen über SaaS Unit-Ökonomik, Enterprise-Verkauf usw. aus.)

Warum? Kandidaten von FAANG oder gut finanzierten Startups haben diese Entscheidungen gesehen. Kandidaten von Consulting, Einzelhandel, Finanzen oder Government-Tech nicht, auch wenn sie intelligenter sind.

Gültig: „Hier ist das Geschäftsmodell. Hier sind die Kundendaten. Mach jetzt eine Entscheidung. Zeige deine Arbeit." (Kandidaten aus jedem Hintergrund können das durchdenken.)

3. Es nimmt an, dass der Kandidat sich unbezahlte Zeit leisten kann

Ungültig: Eine 3-stündige Take-Home-Fallstudie in 48 Stunden, während sie Job-Suche durchführen und vollzeitig anderswo arbeiten.

Warum? Kandidaten mit finanziellem Puffer, einem anderen Job oder familiärer Unterstützung können das tun. Eltern, die zwei Jobs arbeiten, können das nicht.

Gültig: 45-Minuten-Live-Interviews (kompensiert, wenn du ernsthaft einstellst). Oder async-Fallstudien mit einem 5-7-Tage-Fenster.

4. Es bevorzugt Kandidaten, die Mentoring beim PM-Einstellen hatten

Ungültig: Kandidaten, die Einstell-Interviews bei Google oder Amazon durchgegangen sind, haben Fallstudien geübt. Sie kennen die Frameworks. Sie wissen, was sie sagen sollen.

Warum? Dies ist Vorteil durch Netzwerk und Exposition, nicht durch Fähigkeit, ein guter PM zu sein.

Gültig: Szenarien, die nicht vorbereitet werden können, weil sie spezifisch für dein Geschäft sind. Verhaltens-Fragen, die tatsächliche Entscheidungen an die Oberfläche bringen, nicht geprüfte Geschichten.

Wie man deine Bewertung validiert

1. Sagt es Jobperformanz voraus?

Der Test: Stelle 10 Personen mit deiner Bewertung ein. 18 Monate später, taten die, die 3+ bewertet wurden, tatsächlich besser als die, die 2 bewertet wurden?

Wenn die Antwort „nein" ist, ist deine Bewertung nicht gültig. Du misst etwas anderes.

Was zu messen ist:

Lieferten sie ihre OKRs?
Bewerten ihre Peers sie als starke Mitarbeiter?
Wurden sie befördert oder intern versetzt?
Besitzen sie Bereiche selbstbewusst, oder brauchen sie konstante Anleitung?

Wenn hohe Bewerter deiner Bewertung nicht besser performen, gestalte die Bewertung neu.

2. Sagt es gleich über Gruppen voraus?

Der Test: Schau auf deine Einstellungen. Bewerten Frauen das Gleiche wie Männer? Bewerten Menschen aus nicht-traditionellen Hintergründen das Gleiche wie Menschen von FAANG?

Wenn Frauen im Durchschnitt 0,5 Punkte niedriger bewerten, ist deine Bewertung voreingenommen. Das könnte bedeuten: Du bewertest Kommunikationsstil, der Männer bevorzugt, oder Durchsetzungsfähigkeit, die Frauen bestraft, oder Vertrauen, das von Vorrecht kommt.

Häufige Voreingenommenheit in PM-Bewertungen:

Vertrauens-Bias: Du belohnst Kandidaten, die Meinungen entscheidend angeben. Aber Forschung zeigt, dass Frauen für das gleiche Vertrauensniveau bestraft werden, während Männer belohnt werden. (Lösung: Belohne Nuance und „Ich weiß nicht" als Stärke, nicht Schwäche.)
Framework-Dropping-Bias: Du belohnst Kandidaten, die RICE, OKRs oder Jobs to Be Done zitieren. Aber Kandidaten aus gut ausgestatteten Hintergründen kennen diese Frameworks; andere lernen sie später. (Lösung: Belohne Problem-Lösungs-Logik, nicht Framework-Name-Dropping.)
Kommunikations-Stil-Bias: Du belohnst artikulierte, fließende Präsentation. Aber das bevorzugt native Englischsprachler und Menschen mit Präsentations-Training. (Lösung: Frage auch nach schriftlicher Überlegung; bewerte die Überlegung, nicht die Lieferung.)
Zeit-Vorrecht-Bias: Deine Bewertung geht davon aus, dass Kandidaten 3+ Stunden unbezahlt ausgeben können. Das benachteiligt Eltern, Menschen mit begrenztem finanziellem Puffer, Betreuer. (Lösung: Biete kürzere Bewertungen oder bezahlte Zeit an.)
Stammbaum-Bias: Du wiegst unbewusst „sie arbeitete bei Airbnb" oder „sie ging zu Stanford". Das ist Einstellen für Vorrecht, nicht Urteil. (Lösung: Blende das Unternehmen/die Schule aus; bewerte das tatsächliche Denken.)

Eine faire PM-Bewertung aufbauen

Struktur: Mehrere Formate, verschiedene Modi

Verlasse dich nicht auf ein Format. Biete:

Option A: 2-stündige Take-Home-Fallstudie (async, kann jederzeit getan werden) Option B: 45-Minuten-Live-strukturiertes Interview zu ähnlichem Szenario Option C: 30-Minuten-Verhaltensinterview (über Video oder Telefon)

Lass Kandidaten wählen. Dies ebnet das Spielfeld: jemand, der klar schreibt, aber nicht gut spricht, kann Option A tun. Jemand artikuliert, aber nervös beim Schreiben, kann Option B tun. Dies filtert nach Urteil, nicht Präsentations-Format.

Standardisierung: Gleiches Szenario, andere Lieferung

Nutze das gleiche Basis-Szenario für Take-Home- und Live-Interviews. Stelle leicht unterschiedliche Follow-ups.

Warum? Du kannst Kandidaten über Formate vergleichen. Und Kandidaten aus jedem Hintergrund stehen dem gleichen Problem gegenüber, nur in ihrer bevorzugten Modalität.

Explizite Rubrik: Mit Voreingenommenheit-Checks

Für jede Dimension, füge eine Notiz hinzu: „In welchen Wegen könnte dies voreingenommen sein?"

Beispiel-Rubrik-Dimension:

Prioritäts-Urteil (1–4) Definition: Fragen sie vor der Entscheidung nach Klärungsfragen? Quantifizieren sie Auswirkungen? Können sie Trade-offs erklären? Voreingenommenheit-Checks: Bestrafst du Kandidaten dafür, dass sie mehr Fragen stellen (nicht voreingenommen, tatsächlich gut)? Belohnst du Entscheidungsfreudigkeit über Überlegtheit (potenzielle Voreingenommenheit)? Gehst du davon aus, dass vorheriges FAANG-Wissen (Voreingenommenheit — sie müssen es lernen)?

Überprüfe die Rubrik mit jemandem aus einem anderen Hintergrund als du. Sie werden Voreingenommenheit erkennen, die du verpasst.

Blinde Bewertung: Entferne Namen, Unternehmen, Schulen

Vor der Bewertung, entferne:

Namen (zeigt Geschlecht/Ethnizität)
Unternehmens-Geschichte („Google" hat Glorienschein)
Schule („Stanford" hat Glorienschein)
Jahre der Erfahrung (könnte Alters-Diskriminierung vertreten)

Bewerte allein auf das Denken.

Vergleich über Gruppen: Prüfe die Varianz

Nach der Einstellung von 10–15 Personen, führe eine einfache Überprüfung durch:

Durchschnittliche Score für Frauen: ___
Durchschnittliche Score für Männer: ___
Durchschnittliche Score für Menschen aus unterrepräsentierten Hintergründen: ___
Durchschnittliche Score für Menschen von bekannten Unternehmen: ___

Wenn es systematische Varianz gibt (z. B., Frauen bewerten 0,5 Punkte niedriger), ist deine Bewertung voreingenommen. Untersuche, warum.

Referenz-Überprüfungen: Validiere gegen die Realität

Frage nicht nur „Sind sie ein starker PM?" Frage: „Gib mir zwei Beispiele von Entscheidungen, die sie getroffen haben. Waren das gute Entscheidungen? Warum?"

Dies sagt dir, ob deine Bewertung tatsächlich Leistung vorausgesagt hat, nicht nur, ob die Person sympathisch ist.

Häufige Fairness-Fallstricke in PM-Bewertungen

Fallstrick 1: „Natürliches Talent" oder „PM Intuition"

Sprache zu vermeiden: „Sie haben nur großartige Instinkte." „Sie haben eine Product Mindset."

Warum es voreingenommen ist: „Instinkt" ist oft Code für „sie erinnern mich an mich selbst" oder „sie passen zum Profil erfolgreicher PMs, die ich kenne" (normalerweise Menschen wie du). Dies ist, wie Vorrecht sich selbst fortpflanzt.

Bessere Sprache: „Sie fragten nach CAC und LTV, bevor sie eine Initiative empfahlen." (Spezifisch, beobachtbar, lernbar.)

Fallstrick 2: Übergewichtung von Startup-Erfahrung

Sprache zu vermeiden: „Sie kommen aus einer schnelllebigen Startup-Umgebung."

Warum es voreingenommen ist: Nur Menschen mit finanziellem Vorrecht können sich Early-Stage-Startup-Gehälter leisten. Du filterst nach Vorrecht, nicht Fähigkeit.

Bessere Sprache: „Sie trafen Entscheidungen mit unvollständigen Daten und passten sich basierend auf Feedback an." (Beobachtbar über Startup, Konzern und Non-Profit.)

Fallstrick 3: Annahme, dass PM eine Beförderung ist, nicht ein Pivot

Wenn jemand von Ops, Finanzen oder Engineering zu PM kommt, bestrafe ihn nicht dafür, dass er keine „PM-Erfahrung" hat. Er könnte besser denken als jemand mit 5 Jahren PM bei einem bekannten Unternehmen.

Bewerte das Urteil, nicht den Titel.

Fallstrick 4: Vertrauen belohnen ohne Verifizierung

Bei einem Live-Interview, bewerte jemanden nicht höher, weil er/sie sicher klingt. Bewerte sie dafür, recht oder falsch zu sein, und dafür, wenn angemessen, Unsicherheit anzuerkennen.

Die besten PMs sagen „Ich weiß nicht, hier ist, wie ich es herausfinden würde."

Rote Fahnen, dass deine Bewertung voreingenommen ist

Frauen bewerten systematisch niedriger (Forschung zeigt, das ist häufig).
Menschen aus nicht-traditionellen Hintergründen bewerten systematisch niedriger.
Kandidaten von großen Unternehmen bewerten systematisch höher (auch wenn ihre Überlegung nicht besser ist).
Kandidaten mit „Gründer/Exec-Erfahrung" auf ihrem LinkedIn bewerten höher (auch wenn sie keine Produkt-Entscheidungen getroffen haben).
Du stellst meist Menschen ein, die dich an Menschen in deinem Team erinnern.

Wenn du eines davon siehst, pausiere. Gestalte neu.

Der Business Case für faire Bewertung

Faire Bewertung ist nicht altruistisch. Sie ist profitabel. Wenn du die Hälfte des Talent-Marktes filterst, weil deine Bewertung voreingenommen ist, lässt du Geld auf dem Tisch.

Die besten PMs kommen aus allen Hintergründen. Die voreingenommene Bewertung hält dich davon ab, sie zu finden.

Fairness operationalisieren

Vierteljährlich: Prüfe deine Bewertung auf Voreingenommenheit. Führe die demografische Varianz-Überprüfung durch. Frage externe Reviewer (Menschen nicht von deinem Unternehmen, anderer Hintergrund), um deine Rubrik und Szenario auf Voreingenommenheit zu überprüfen.

Jährlich: Schau zurück auf Einstellungen. Performen Menschen, die 3+ bewertet wurden, tatsächlich besser, über alle demografischen Gruppen? Wenn nicht, passe an.

Immer: Blinde die Bewertung. Standardisiere die Rubrik. Biete mehrere Modi an. Dokumentiere dein Nachdenken.

So baust du Product Management Bewertungen auf, die sowohl gültig als auch fair sind.

Für praktische Anleitung zur Interpretation von Bewertungs-Scores und zum Treffen von Einstellungs-/Nicht-Einstellungs-Entscheidungen, siehe Interpretation von Product Manager Bewertungs-Ergebnissen. Für Tool-Vergleich und Bewertungs-Mix-Anleitung, erkunde Der beste Product Manager Test für Einstellen.

Product ManagerTest ValidityFairnessAssessment Design