Recruiting & Einstellung

Der beste Product-Manager-Test für die Einstellung: Tool-Vergleich und Framework

ClarityHire Team(Editorial)2026-05-095 min read

Stand der PM-Bewertung

Die meisten Firmen tun eines von drei: (1) Portfolio-Review und Coffee-Chats, (2) generische Fallstudien von Google oder McKinsey, (3) unstrukturierte „Erzähl mal"-Interviews. Alle drei haben Lücken.

Portfolio-Review begünstigt Lautheit und Marken-Pedigree. Generische Cases sagen, wer am meisten gelernt hat — nicht, wer bessere Entscheidungen trifft. Unstrukturierte Interviews messen Sympathie, kein Urteilsvermögen.

Der beste Ansatz kombiniert alle drei, gewichtet nach dem, was du tatsächlich vorhersagen musst.

Drei Formate und was sie messen

Format 1: Take-home-Fallstudie (2–3 Stunden)

Misst: Urteilsvermögen bei unvollständigen Daten; schriftliche Klarheit und Struktur; Priorisierung und Trade-offs; Metrik-Literacy.

So führst du es durch: stelle ein realistisches Szenario mit echten Metriken, Kundenfeedback und Marktdaten. Bitte um (1) Diagnose, (2) Plan, (3) Erfolgsmetriken, (4) Risiken.

Stärken: asynchron; zeigt echtes Denken; vergleichbar bewertbar.

Schwächen: zeitaufwändig; kein „auf den Beinen denken"; manche Bewerberinnen lassen sich helfen — schwer zu erkennen.

Wann nutzen: für PM- und Senior-PM-Einstellungen. Weniger wichtig für APMs.

Anpassung: nutze dein echtes Geschäft, keine Vorlage. Wenn du PM für Onboarding einstellst, zeig deine Onboarding-Metriken. Filtert nach Bewerberinnen, die über dein Problem nachgedacht haben.

Format 2: strukturiertes Live-Interview (45 Minuten)

Misst: Schnelldenken; Metrik-Literacy und Diagnose; Kommunikation und Überzeugungskraft; Umgang mit Mehrdeutigkeit.

So führst du es durch: stelle ein Geschäftsszenario oder eine Metrikbewegung. Sie soll erklären, diagnostizieren, nächste Schritte vorschlagen. Keine Vorbereitung. Höre zu, bohre nach, unterbrich nicht.

Gutes Beispiel: „DAU sank letzte Woche um 8 %. Letztes Jahr zur gleichen Zeit war es +12 %. Erkläre, was passiert, und was du tun würdest."

Stärken: Echtzeitreaktion ist schwer zu faken; du siehst Priorisierung unter Druck; standardisierbar.

Schwächen: manche tolle PMs frieren ein (gerade introvertierte); hohe Varianz durch Interviewerinnen; zeigt keine schriftliche Klarheit.

Wann nutzen: alle Stufen. Kürzer für APM (20 min), länger für Senior PM (45 min).

Bewertung: einfache Rubrik: Diagnostik, Metrik-Literacy, Kommunikation. 1–4.

Format 3: Verhaltens- + Execution-Interview (30 Minuten)

Misst: vergangene Execution; Lernen aus Fehlern; cross-funktionalen Einfluss; Entscheidungen unter realen Constraints.

So führst du es durch: frage nach einer Auslieferung unter Druck, einem gestoppten Projekt, einer überzeugten skeptischen Exec-Person. Bohre: „Was war das Ziel? Was stand im Weg? Was würdest du anders machen? Hast du das Ergebnis gemessen?"

Die besten haben Geschichten, in denen sie (1) gewettet haben, (2) falsch lagen, (3) gelernt haben.

Stärken: vergangenes Verhalten sagt zukünftiges vorher; zeigt, ob sie aus Misserfolg lernen; eine kohärente Geschichte ist schwer zu faken.

Schwächen: hängt davon ab, ob sie etwas geliefert hat; schwer bei jungen Bewerberinnen; Bias durch Identifikation der Interviewerin.

Wann nutzen: PM und Senior PM. Für APM frage nach der größten Entscheidung, die sie unterstützt hat — nicht besessen.

Bewertung: zeigt die Geschichte Lernen? Übernimmt sie Verantwortung oder schiebt sie auf externe Faktoren? Artikuliert sie die Entscheidung unter den realen Constraints?

Baue deinen Mix

APM-Hires:

Case (45 min): Mini-Feature-Spec. Kannst du Scope brutal kürzen?
Live (20 min): „Du hast 2 Wochen und eine Engineerin. Was lieferst du aus?"
Verhaltens (15 min): Feedback, das du bekommen hast, und wie du es umgesetzt hast.

Total: ~80 min. Signal: Lerngeschwindigkeit, Execution, Coachability.

PM-Hires:

Case (2 h): strategische Priorisierung mit unvollständigen Daten.
Live (45 min): Diagnose + Strategie unter Zeitdruck.
Verhaltens (30 min): Entscheidung, bei der du falsch lagst.

Total: ~3 h. Signal: Urteilsvermögen, Metrik-Literacy, Execution, Lernen.

Senior-PM-Hires:

Case (2–3 h): Portfolio-Denken und Strategie.
Live (45 min): Strategie-Artikulation und Peer-Disagreement.
Verhaltens (30 min): härteste Personen- oder Priorisierungsentscheidung.
Referenz-Checks (30 min): hat sie geliefert? Hat sie Menschen entwickelt?

Total: ~4,5 h + Referenz-Calls. Signal: strategisches Denken, organisatorischer Hebel, Mentorship.

Gängige Tools im Vergleich

Generische Case-Plattformen (Reforge, Case Coach …)

Pro: Bewerberinnen bereiten sich gründlich vor; skalierbar; Benchmark möglich.

Contra: alle haben dieselben Cases gesehen; auswendig gelernte Antworten punkten hoch, sagen aber Performance nicht vorher; testet nicht in deinem Kontext.

Verdikt: taugt als Screen, nicht als echtes Signal.

Praktische Übungen (Figma-Mockup, Tabellenmodell)

Pro: konkrete Ausgabe; Bewerberinnen mögen echte Arbeit; zeigt Handwerk und Detailaufmerksamkeit.

Contra: zeitaufwändig; Designskills können das Produktdenken überdecken; schwer über verschiedene Problemtypen vergleichbar.

Verdikt: gut zur Ergänzung einer Fallstudie, nicht standalone.

Portfolio-Review (echte Arbeit)

Pro: echte Evidenz; Kontext für tatsächliche Entscheidungen; ausgelieferte Bewerberinnen heben sich ab.

Contra: Bias zu bekannten Firmen; vertrauliche Arbeit nicht prüfbar; Firmengröße und Glück spielen mit; sagt nicht voraus, ob sie in deinem Kontext glänzt.

Verdikt: wertvoll, aber unzureichend. Startpunkt, kein Entscheidungsfaktor.

Unstrukturierte Interviews

Pro: flexibel; schnell; Storytelling-Talente glänzen.

Contra: hohe Varianz; Bias zu polierten Bewerberinnen; kein Vergleich auf gleichen Achsen.

Verdikt: vermeide als primäre Bewertung. Nur als finaler Cultural-Fit-Check.

Bau dir eigene Bewertung

Die beste ist die auf dein Geschäft zugeschnittene.

Schritt 1: definiere Erfolg im PM-Rolle. Wachstum? Retention? Unit Economics? Umsatz? Plattformstabilität?

Schritt 2: baue eine Fallstudie darum. Echte Metriken, Entscheidungen, Constraints. Siehe PM-Beispielfragen.

Schritt 3: erstelle eine Rubrik. Was punktet hoch? Lernen aus Fehlern, Pragmatismus, Metrik-Literacy? Vorlagen unter PM-Bewertung.

Schritt 4: teste sie. Gib dieselbe Fallstudie 3–5 deiner besten PMs. Punkten Top-Performerinnen hoch? Wenn nicht, ist die Rubrik falsch.

Schritt 5: rolle aus. Nutze strukturierte Bewertung für konsistente Auslieferung und blinde Bewertung. Zur Auswertung siehe Ergebnisse interpretieren.

Was vermeiden

Verwechsle Selbstvertrauen nicht mit Kompetenz. Manche tolle PMs sind leise.

Verwechsle Klugheit nicht mit Urteilsvermögen. Sehr Kluge können furchtbare Trade-off-Entscheidungen treffen.

Verwechsle Frameworks nicht mit Denken. Eine PM, die RICE rezitiert, aber nicht anwendet, ist gefährlich.

Bewerte nicht allein. Mehrere Personen unabhängig bewerten lassen, dann Debrief. Die Uneinigkeit ist das Signal.

Stelle Validität und Fairness sicher. Siehe PM-Test-Validität und Fairness.

ROI einer guten PM-Bewertung

Ein schlechter PM-Hire kostet 18+ Monate (Ramp-up, Misserfolg, Ersatz). Eine gute Bewertung dauert 3–4 Stunden und sagt dir, ob jemand in deinem Kontext liefert.

Die besten Teams automatisieren das Assessment, bewerten blind und nehmen es so ernst wie ein Tech-Interview. Du auch.

product-managementassessment-toolshiring-prozess