Projectmanager-assessment: validiteit, eerlijkheid en wat echt prestatie voorspelt
De vraag aanstellingsleiders zouden moeten stellen
Je bouwde een PM-assessment. Scenarionprobleem, prioritering, risicobeoordeling, gedraaginterview. Kandidaten die 4+ scoren doen goed op de job. Kandidaten die 2,5 of lager scoren mislukken. Maar heb je dat geverifieerd? En is de assessment eerlijk?
Dit bericht loopt door wat validiteit betekent voor PM-assessments, hoe je het meet, en wat eerlijkheid in praktijk lijkt.
Wat validiteit betekent
Een assessment is geldig als het de jobuitkomst voorspelt waar je je om begeert. Voor PM-hiring, dat is: "Levert deze persoon projecten op tijd af, beheert risico goed en bouwt teamvertrouwen?"
Er zijn drie types:
1. Voorspellende validiteit
Voorspelt de assessmentscore toekomstige werkprestatie?
Hoe te meten:
- Stel 10+ PMs aan met je assessment.
- Na 6 maanden, beoordeel ze op werkprestatie (360 review, managererbeteugel, metriekenen projectlevering).
- Vergelijk assessmentscore met prestatiebeoordelingen.
- Als hoge-scorers goed presteren en lage-scorers worstelen, je hebt voorspellende validiteit.
Wat goed lijkt:
- Correlatie van 0,6+ tussen assessmentscore en prestatiebeoordelingen (sterk).
- Correlatie van 0,4-0,6 (gematigd, nog steeds bruikbaar).
- Correlatie onder 0,3 (laag, de assessment is niet voorspellend).
Werkelijk gegeven: Teams die scenario-gebaseerde PM-assessments gebruiken zien meestal 0,5-0,7 correlatie. Teams die ongestructureerde gedraaginterviews gebruiken zien 0,2-0,3. Het verschil is werkelijk.
2. Constructvaliditeit
Meet de assessment werkelijk wat het zegt te meten?
Voor PM-assessment, je beweert te meten:
- Besluitvorming onder beperking
- Prioritering oordeelsvermogen
- Risicobewustzijn
- Stakeholder-invloed
Hoe te verifiëren: Doen kandidaten die hoog scoren op "besluitvorming" werkelijk besluitvorming op de job? Of zijn ze gewoon goed in het nemen van de test?
Rode vlag: Een kandidaat scoort 4,5 op het scenario (besluitvorming) maar op de job hedges meestal en zoekt consensus. De assessment mat niet wat belangrijk is.
Hoe voorkomen: Nadat je aanstelt, laat de aanstellingsmanager de kandidaat onafhankelijk op elk van de vier dimensies beoordelen (op 3 maanden en 6 maanden). Vergelijk hun beoordeling met de assessmentscore. Als er een groot gat is, je assessment meet het verkeerde ding.
3. Inhoudsvaliditeit
Bevat de assessment realistische problemen waar kandidaten werkelijk mee zullen omgaan?
Voorbeelden van hoge inhoudsvaliditeit:
- "Je hebt een klant die dreigt te vertrekken tenzij je tegen 1 oktober levert" (echt PM probleem).
- "Rangschik deze features gegeven deze beperkingen" (echt PM probleem).
- "Drie teams zijn in parallel maar een is afhankelijk; identificeer risico's" (echt PM probleem).
Voorbeelden van lage inhoudsvaliditeit:
- "Schrijf een 10-pagina projectplan van nul af" (PMs doen dit niet in dag-to-dag werk).
- "Leg Agile vs. Waterfall uit" (test kennis, niet oordeelsvermogen).
- "Vertel me over een tijd je een team beheerde" (gedraag, niet work-sample).
Hoe te meten: Laat drie PMs momenteel in rol je assessment zien. Vraag: "Lijken deze problemen als wat je werkelijk tegen het lijf loopt?" Als ze nee zeggen, je test iets anders dan werkprestatie.
Validiteit is niet automatisch daar
Veel organisaties veronderstellen: "Als de assessment goed voor ons lijkt, moet het voorspellend zijn." Niet waar.
Veel voorkomende assessmentpatronen die goed lijken maar niet voorspellend zijn:
Patroon 1: Gedetailleerde Gantt-kaart-toewijzing. Lijkt: professioneel, georganiseerd, technisch. Meet werkelijk: vermogen Gantt-softwarekaart te gebruiken, niet PM-oordeelsvermogen. Voorspellende validiteit: laag (0,2-0,3).
Patroon 2: Ongestructureerd gedraaginterview. Lijkt: grondig, leert iemand kennen. Meet werkelijk: interviewvertrouwen en verhalenverteltechniek. Voorspellende validiteit: laag (0,2-0,3).
Patroon 3: Case study zonder live debrief. Lijkt: kandidaten denken diep over probleem. Meet werkelijk: raadplegingsschrijftechniek en analyse. Voorspellende validiteit: gematigd (0,4-0,5).
Patroon 4: Scenarioprobleem + live prioritering + risicobeoordeling. Lijkt: rigoureus en duur. Meet werkelijk: besluitvorming, oordeelsvermogen en systeemdenken. Voorspellende validiteit: hoog (0,6-0,7).
Hoe je eigen assessment's validiteit verifiëren
Stap 1: Definieer wat "goeide prestatie" betekent op de job
Voordat je zelfs controleert of de assessment het voorspelt, definieer de uitkomst:
- Tijdlijn: PMs leveren mijlpalen af op de vastgelegde datum of geven vroege waarschuwing.
- Scope: PMs leveren de scope af waar ze zich aan verbonden of explicieet rescope met stakeholder-overeenkomst.
- Risico: PMs oppervlakte afhankelijkheidsrisico's proactief, niet nadat ze ontploffen.
- Team: PMs behouden teamengagement en psychologische veiligheid door verandering.
Maak deze gedraagmatig, niet vaag. "Levert op tijd af" is gedraagmatig. "Is een goeide leider" is vaag.
Stap 2: Stel aan met je assessment en volg resultaten
Stel 10-15 PMs aan over 6 maanden. Volg hun prestatie op 3, 6 en 12 maanden met behulp van de gedraagdefinitie hierboven.
Hoe te meten:
- 360 review (manager, skip-level, peer) gegrond op de vier gedragingen.
- Projectlevering-metrieken (op-tijd levering tarief, scope wijzigingen, teamretentie).
- Skip-level gesprekken: "Hoe is deze PM's communicatie? Word je verrast door risico?"
Stap 3: Vergelijk assessmentscores met resultaten
Maak een eenvoudig spreadsheet:
| Kandidaat | Assessmentscore | Job-prestatie-beoordelingen (bij 6 mnd) | Match? |
|---|---|---|---|
| Alice | 4,2 | 4,1 | Ja |
| Bob | 3,5 | 3,4 | Ja |
| Carol | 3,0 | 2,8 | Ja |
| Dan | 4,8 | 3,2 | Nee (overschatten) |
| Eva | 2,8 | 2,1 | Ja |
Als meeste rijen matchen, je hebt validiteit. Als meerdere rijen mismatches tonen, je assessment is niet voorspellend.
Stap 4: Herstel mismatches
Als een hoog-scorer (4,5 op assessment) zwak presteert (2,5 op job):
- Ze kunnen hulp op het scenario hebben gekregen.
- De assessment kan iets anders meten dan werkprestatie (bv, je bent goed in test-nemen maar niet stakeholder-communicatie).
- Ze kunnen geland in rol of omgeving die niet voor hen geschikt is (aangesteld als PM voor Scrum Master-rol).
Als een laag-scorer (2,8 op assessment) goed presteert (4,0 op job):
- Je assessment zou te streng kunnen zijn of meet het verkeerde ding.
- Ze kunnen uit een ander rol overgebracht en op de job geleerd hebben.
In elk geval, onderzoek en pas je assessment aan.
Eerlijkheid: Is de assessment biased?
Validiteit gaat over voorspelling. Eerlijkheid gaat over gelijke kans.
Een assessment kan geldig zijn (voorspelt prestatie) maar oneerlijk (bias tegen bepaalde groepen). Voorbeeld: een scenario geschreven in bedrijfsjargon vertrouwd voor Ivy League-kandidaten maar niet voor community college-kandidaten. Beide groepen kunnen PM goed, maar een groep wordt oneerlijk gefilterd.
Veel voorkomende fairness-problemen in PM-assessments
Probleem 1: Een specifieke industrie-achtergrond veronderstellen. Scenario veronderstelt kennis van SaaS-metrieken. Kandidaten van productie, gezondheidszorg of regering zijn nadelig beïnvloed. Reparatie: Veronderstel geen domeinkennis. Test PM-denken, niet domeinfeiten.
Probleem 2: Getimede scenario's die voordeel geven aan mensen zonder zorgverantwoordelijkheden. "30-minuten reactie, verschuldigd om 17:00." Kandidaten die kinderopvang of ouderenzorg jongleren zijn nadelig beïnvloed. Reparatie: Async-assessments met flexibele termijnen. 24 uur om te reageren is redelijk.
Probleem 3: Taal/jargon-barrières. Scenario gebruikt specifieke PM-terminologie (WIP, burn-down, etc.) zonder uit te leggen. Niet-moedertaalsprekers Engels zijn nadelig beïnvloed. Reparatie: Veronderstel geen PM-achtergrond. Definieer termen. Test denken, niet woordenschat.
Probleem 4: Live verbale component die introverts bevoordacht. Prioritering-probleem wordt verbaal in real-time gedaan. Introverts die het beste in schrijven denken zijn nadelig beïnvloed. Reparatie: Bied geschreven of verbale optie voor prioritering. Beide zijn geldig.
Probleem 5: Scenario's die specifieke cultuurfit veronderstellen. Scenario veronderstelt startup-mentaliteit: "We zijn slordig en lanceren snel." Kandidaten van risico-averse industrie zien dit als onverantwoordelijk en scoren lager. Reparatie: Maak scenario's industrie-agnostisch. Test PM-denken, niet culturele waarden.
Hoe voor eerlijkheid te controleren
Nadat je je assessment op 20+ kandidaten uitvoert:
- Groepeer kandidaten op demografische (als je volgen: geslacht, ras, onderwijsachtergrond, etc.).
- Vergelijk gemiddelde assessmentscores over groepen.
- Als één groep systematisch lager scoort, onderzoek:
- Presteert de groep werkelijk lager op de job? (Controleer tegen werkelijk prestatie-gegevens.)
- Of meet de assessment iets anders dan taakbereiding? (Vraag die groep: "Voelde de assessment eerlijk aan?")
Wat je zoekt: Gelijke gemiddelde scores over groepen, of als er gat is, dat gat zou moeten matchen het werkprestatie-gat (niet groter).
Voorbeeld:
- Groep A scoort 3,8 op assessment, presteert op 3,7 op job. ✓ Eerlijk.
- Groep B scoort 3,2 op assessment, presteert op 3,5 op job. ✗ Assessment onder-voorspeld; iets klopt niet met de assessment, niet de groep.
Rode vlaggen voor ongeldigheid of oneerlijkheid
Ongeldigheid:
- Je hoog-scorers (4+) presteren niet consistent goed op de job.
- Je kunt niet artikuleren wat de assessment meet (als je niet kunt zeggen, je kent waarschijnlijk niet).
- Je hebt jobprestatie niet empirisch gemeten (je gokt gewoon).
Oneerlijkheid:
- Bepaalde groepen scoren systematisch lager, en je hebt niet geverifieerd ze presteren op de job slecht.
- Je gebruikt taal of scenario's die specifieke achtergrond of cultuur veronderstellen.
- Kandidaten van niet-traditionele PM-achtergronden (bootcamp, interne bevorderingen) worden gefilterd op assessmentin-stadium.
Geldige en eerlijke assessment bouwen
De beste PM-assessments:
- Gebruiken work samples (scenario + prioritering) om werkelijk oordeelsvermogen te testen, niet kennis.
- Zijn industrie-agnostisch of testen over meerdere industrie zodat geen achtergrond verondersteld wordt.
- Zijn async wanneer mogelijk om verschillende werkstijlen en verantwoordelijkheden aan te passen.
- Definiëren wat succes eruit ziet (de rubric) en verifiëren dan die rubric werkprestatie voorspelt.
- Worden gecontroleerd voor eerlijkheid — voer de nummers elke 6-12 maanden uit.
Een assessment dat geldig en eerlijk is, garandieert niet een PM zal slagen. Maar het verbetert je kansen in aanstellingsnauwkeurigheid dramatisch.
Hoe je PM-assessment valideren
Als je een gestandaardiseerde PM-assessment gebruikt, vraag de provider: "Wat is de voorspellende validiteit van deze assessment?" Echte verkopers hebben de studies gerond. Als ze niet, dat is rode vlag.
Als je je eigen assessment hebt gebouwd, voer de eenvoudige vierstapstap hierboven uit (definieer succes, stel aan en volg, vergelijk scores met resultaten, reparatie mismatches). Het duurt 6 maanden maar betaalt voor jezelf terug in aanstellingsnauwkeurigheid.