Der beste Projektmanager-Test für die Einstellung (der wirklich funktioniert)
Warum dein PM-Assessment wahrscheinlich falsch läuft
Die meisten Teams hiren PMs so: Verhaltensinterview plus ein Take-home, in dem die Bewerberin ein Gantt-Chart baut oder einen Projektplan schreibt. Dann wird auf Basis der Sauberkeit des Dokuments eingestellt.
Das scheitert aus zwei Gründen. Erstens: ein Dokument zu schreiben sagt nicht voraus, wie jemand unter Druck entscheidet. Zweitens: dasselbe Dokument kann von fünf verschiedenen PMs mit fünf verschiedenen Philosophien geschrieben werden — fairer Vergleich unmöglich.
Die beste PM-Bewertung umgeht beide Probleme: sie gibt allen Bewerberinnen dasselbe Szenario, lässt sie eine Entscheidung treffen und verteidigen, und punktet sie nach beobachtbaren Kriterien.
Was nicht funktioniert (und warum)
Zertifikate
PMP, CSM und CAL zeigen, dass jemand Frameworks studiert hat. Sie zeigen kein Urteilsvermögen. Eine zertifizierte PM kann offensichtliche Risiken übersehen, jede Entscheidung absichern und an Stakeholder-Kommunikation scheitern.
Nutze Zertifikate als Nice-to-have, nicht als Filter. Eine starke PM ohne Zertifikat schlägt eine schwache PM mit Zertifikat.
Take-home-Gantt oder Projektplan
Die Bewerberin baut einen Plan für ein fiktives Projekt. Du bewertest auf Detail. Problem: ein detaillierter Plan zu einem vagen Problem ist kein Signal — du testest Dokumentqualität, nicht Denken.
Falls Take-home, paare es mit einem 30-Minuten-Debrief. Lass sie verteidigen. „Was, wenn der Termin tatsächlich hart ist?" Erzwingt Reasoning.
Unstrukturiertes Verhaltensinterview
„Erzähl von einem schwierigen Projekt." Die Bewerberin erzählt eine Geschichte. Du entscheidest, ob du sie magst. Ergebnis: keine zwei Bewerberinnen antworten gleich, keine zwei Interviewerinnen punkten gleich, kein echter Vergleich.
Falls Verhaltens, mach es strukturiert. Gleiche Fragen, gemeinsame Rubrik.
Was funktioniert: Szenario + Priorisierung + Risiko
Dieser Stack bündelt das beste Signal. 95 Minuten pro Bewerberin und trennt zuverlässig stark von durchschnittlich.
1. Szenario (30 min, asynchron)
Format: schicke ein realistisches Constraint-Szenario per E-Mail. Sie antwortet mit einem 1–2-seitigen Schriftstück in 30 Minuten. Keine Hinweise.
Szenariobeispiel: Du bist PM in einem B2B-SaaS. Eure größte Kundin (20 % ARR) sagt, sie kündigt, falls ihr ein neues Reporting-Feature nicht bis 1. Oktober ausliefert. Heute ist 1. August. Engineering schätzt 800 Stunden (5 Engineerinnen, 4 Wochen, falls sie nichts anderes tun). Ein zweites Team arbeitet an Tech-Debt, der Produktionsinstabilität erzeugt. Der CTO sagt, du kannst eine Engineerin für maximal 2 Wochen ausleihen.
Schriftlich:
- Welche Informationen sammelst du zuerst
- Drei Optionen mit Trade-off
- Deine Empfehlung und Begründung
- Ein wichtiges Risiko, das du sofort minderst
Bewertung (4 Dimensionen, 1–5):
- Fragt zuerst nach Unbekanntem (4–5: „Bevor ich entscheide: ist die 800-Stunden-Schätzung fundiert oder aufgebläht? Können wir Scope reduzieren? Ist der 1. Oktober hart oder verhandelbar?") vs. (1–2: „Ich nehme Contractoren und ziehe es durch.")
- Nennt explizite Trade-offs (4–5: „Option A kostet 100 k$ Contractor-Ramp und verliert Agilität. Option B reduziert Features, riskiert Vertrauen. Option C parallele Workstreams, aber Merge-Risiko.") vs. (1–2: „Wir könnten anstellen, kürzen oder schneller arbeiten.")
- Macht klare Empfehlung (4–5: „Empfehle C mit Mitigation: Scope bis 10. August fixieren, tägliche Handoff-Meetings.") vs. (1–2: „Schwer zu sagen ohne mehr Infos.")
- Erkennt nicht-offensichtliche Risiken (4–5: „Falls die 800 Stunden in Wahrheit 1.200 sind, sind wir verloren. Ich würde die erste Woche als PoC nutzen.") vs. (1–2: „Wir könnten den Termin verfehlen.")
Schwelle: 4+ in drei von vier = weiter. 3–3,5 = Interview und nachbohren. Unter 3 = absagen.
2. Priorisierung (20 min, live)
Format: Live-Call, gib ihr ein Backlog und ein Constraint, frag nach Ranking. Du spielst die anspruchsvolle Stakeholderin.
Beispiel: Du hast 6 Wochen Team-Kapazität. Backlog:
- A: Compliance-Feature (für neuen Vertikal, 300 k$ ARR-Potenzial, 6 Wochen)
- B: Dashboard-Redesign (interner Schmerzpunkt, +5 % Retention, 8 Wochen)
- C: API für Integrationen (drei Kunden wollen es, 4 Wochen, schaltet Upsell frei)
- D: Performance-Optimierung (langsame Mobile-Erfahrung, 3 Wochen)
- E: Critical Bug im Export (2 % der Power-User, 1 Woche)
Ranke die Top 3. 6 Wochen Kapazität.
Live-Pushback:
- „Die CEO will B unbedingt."
- „Was, wenn eine der Integrationskunden kurz vor Kündigung steht?"
- „Können wir alles, wenn wir Qualität reduzieren?"
Bewertung (3 Dimensionen):
- Quantifiziert Impact (4–5: „C sind 3 Kunden, 50–150 k$ ARR. B ist Retention, ~25–100 k$. A neuer Vertikal, 300 k$ — funktioniert nur, wenn Kunden kommen.") vs. (1–2: „A ist die größte Chance.")
- Trennt Wichtigkeit von Dringlichkeit (4–5: „E ist dringend, aber nur 2 % der User. A ist wichtig, aber wir überleben es. C ist beides.") vs. (1–2: „E ist kritisch, weil es ein Bug ist.")
- Steht zu Empfehlung unter Druck (4–5: „Auch wenn die CEO B will, die Mathematik trägt 8 Wochen nicht. Ich schlage eine 2-Wochen-Phase-1-Redesign vor und Vollversion in Q3.") vs. (1–2: „Okay, wenn die CEO B will, machen wir B.")
3. Risiko und Mitigation (15 min, live)
Format: beschreibe eine reale Projektstruktur mit Abhängigkeiten. Frage: „Drei Risiken und je eine konkrete Mitigation?"
Beispiel: Du lieferst ein Payment-Redesign aus. Drei Teams: deins (6 Wochen), Data (4 Wochen Instrumentation), Compliance (2-Wochen-Audit). Alles parallel. Hard-Deadline: 8 Wochen. Drei Risiken und je eine Mitigation.
Bewertung (2 Dimensionen):
- Erkennt nicht-offensichtliche Risiken (4–5: „Abhängigkeit: Wenn Data eine Woche schlüpft, verfehlen wir den Launch. Mitigation: Liaison zu deren Standup, Schema bis Woche 3 fixieren. Kommunikation: Compliance reviewt zu spät. Mitigation: in Design-Reviews einbinden, Pilot-Audit Woche 5. Scope: Teams interpretieren 'Redesign' anders. Mitigation: One-Pager mit Sign-off bis 15. August.") vs. (1–2: „Wir könnten den Termin verfehlen. Vielleicht Bugs.")
- Mitigationen konkret (4–5: „Liaison zuweisen", „Schema fixieren", „Pilot-Audit") vs. (1–2: „Wir brauchen Kommunikation", „Vorsicht").
4. Strukturiertes Verhaltensinterview (30 min, optional)
Wenn du Stakeholder-Urteilsvermögen über gelebte Beispiele verifizieren willst, strukturiert:
- „Erzähl von einer Re-Scope-Situation. Was hat sie ausgelöst und wie kommuniziertest du?"
- „Erzähl von einer Stakeholderin, die etwas wollte, mit dem du nicht einverstanden warst. Wie hast du es gehandhabt?"
- „Erzähl von einem verfehlten Termin oder Forecast. Was lief schief?"
- „Erzähl von einer pünktlichen Auslieferung mit Abkürzungen. War es das richtige Trade-off?"
Bewerte Spezifität, Selbstbewusstsein, Reflexion und Rollenrelevanz.
Der zusammengesetzte Score
Nach den vier (oder drei) Komponenten hast du Scores zu:
- Entscheidungsfindung (Szenario)
- Urteil unter Constraint (Priorisierung)
- Risikobewusstsein (Risk Assessment)
- Stakeholder-Kommunikation (Verhaltens, optional)
Hiring-Schwellen:
- Schnitt 4+ = starker Hire. Schnell anbieten.
- 3,5–4 = guter Hire. Verifiziere eine Sorge per Referenz.
- 3–3,5 = Grenzfall. Nur in Notlage.
- Unter 3 = absagen.
Häufige Fehler
Fehler 1: Fokus auf Kommunikationsskills statt Urteilsvermögen. Eine PM kann leise sein und gut entscheiden. Teste Denken, nicht Persönlichkeit.
Fehler 2: dasselbe Szenario für jede Kohorte. Nach 10 Bewerberinnen ist es online geteilt. Erfrische alle 6 Monate.
Fehler 3: dich von Selbstvertrauen täuschen lassen. „Ich nehme Contractoren und ziehe es durch" klingt entschieden, übersieht aber Risiken. Bewerte Substanz, nicht Lieferung.
Fehler 4: Live-Debrief skippen. Schriftlich ist wertvoll, aber 10 Minuten Pushback zeigen, wie sie unter Druck denkt.
Warum dieser Stack funktioniert
Das Szenario zeigt Entscheidungstempo und -klarheit. Die Priorisierung zeigt Urteilsvermögen unter Geschäftsconstraint. Das Risk Assessment zeigt Systemdenken. Zusammen 95 Minuten — und du weißt, ob jemand liefert.
So skalierst du das Assessment
Wenn du mehrere PMs einstellst, standardisiere Szenarien und Rubriken. ClarityHire kann diese Bewertungen hosten — für konsistente Bewertung und Vergleichbarkeit.
Bring die Top-Scorerinnen in Live-Interviews und füge die Verhaltenskomponente hinzu, wenn du Stakeholder-Urteilsvermögen verifizieren willst.