Aanwervingsonderzoek

Gestructureerde gedragsinterviews: Wat het onderzoek werkelijk zegt

ClarityHire Team(Editorial)2026-05-125 min read

De hoofdbevinding

Gestructureerde gedragsinterviews voorspellen arbeidsprestataties ongeveer twee keer beter dan ongestructureerde interviews. Dit is geen marginaal effect — het is een van de grootste, meest consistente bevindingen in 70+ jaar onderzoek naar industriële psychologie.

De getallen, in termen van validiteitscoëfficiënten (bereik 0 tot 1, waarbij hoger = meer voorspellend):

Ongestructureerde interviews: ~0,20
Gestructureerde gedragsinterviews: ~0,45
Gecombineerde cognitieve vaardigheid + gestructureerd interview: ~0,65

Ter vergelijking: die 0,45 ligt in dezelfde ballpark als werksteekproeven en is aanzienlijk hoger dan screening op basis van ervaring, referentieverificaties of jaren ervaring. Zie ons samenvattingsartikel over voorspellende validiteitsonderzoek voor de bredere vergelijking van aanwervingsmethoden.

Wat "gestructureerd" betekent in het onderzoek

De studies die de 0,4–0,5 validiteitscijfers opleveren, delen specifieke ontwerpeigenschappen. De belangrijkste:

Dezelfde vragen, dezelfde volgorde. Elke kandidaat krijgt dezelfde prompts.
Verankerde beoordelingsschalen. Elk antwoord wordt beoordeeld aan de hand van vooraf geschreven gedragsvoorbeelden van hoe elk beoordelingsniveau eruitziet (BARS).
Scoring vóór debriefing. Interviewers leggen hun scores vast voordat het panel de kandidaat bespreekt.
Jobrelevante competenties. Vragen zijn toegewezen aan specifieke competenties die de rol vereist.

Studies die een van deze eigenschappen weglaten, tonen lagere validiteit, soms instellend naar de ongestructureerde baseline. Alleen het format is niet genoeg; de discipline levert het signaal op. Zie onze ontwerpgids voor de operationele versie.

Waarom ongestructureerde interviews zo zwak zijn

Ongestructureerde interviews zijn niet alleen iets minder voorspellend — ze worden gedomineerd door goed bekende cognitieve vooroordelen:

Gewicht van eerste indruk. Interviewers rapporteren dat zij vaak binnen 4-5 minuten een hire/no-hire-beslissing nemen en vervolgens de rest van het interview besteden aan bevestigingszoeken.
Gelijke-aan-mij-vooroordeel. Kandidaten die op de interviewer lijken (achtergrond, communicatiestijl, hobby's) krijgen systematisch hogere beoordelingen.
Geheugenvervalsing. Wanneer gevraagd wordt om na het interview te scoren, reconstrueren interviewers in plaats van terug te herinneren — zij onthouden de momenten die bij hun buikgevoel passen en vergeten de rest.
Halo-effect. Een sterke indruk in één dimensie (zelfvertrouwen, communicatie) vloeit over in beoordelingen in niet-gerelateerde dimensies (technische vaardigheid, oordeel).

Structuur elimineert deze vooroordelen niet. Het beperkt ze. Dezelfde vragen in dezelfde volgorde beperkt hoeveel "vibes" het resultaat kunnen beïnvloeden. Pre-debriefing scoring voorkomt dat de senior persoon in de kamer iedereen anders verankert. Verankerde schalen voorkomen dat "3 van de 5" betekent "ik mocht hen nogal graag."

De diversiteitsbevinding

Gestructureerde interviews verminderen ook demografische groepsverschillen in resultaten. De 2022 meta-analyse van Sackett et al. vond dat gestructureerde interviews lagere adverse-impact ratio's vertonen dan ongestructureerde — dat wil zeggen, aanwervingspercentages over demografische groepen zijn meer vergelijkbaar wanneer het interview gestructureerd is.

Het mechanisme is eenvoudig: vooroordeel is een functie van discretie. Wanneer elke kandidaat dezelfde vragen krijgt en op dezelfde rubric wordt beoordeeld, is er minder ruimte voor de soorten oordelen waar vooroordeel werkt. Dit is een reden waarom gestructureerde interviews door de EEOC en gelijkwaardige organen in de meeste jurisdicties worden aanbevolen.

Het is ook het vermelden waard: gestructureerde interviews creëren niet zelf billijkheid. Ze verminderen één bron van vooroordeel. Andere bronnen (sourcing, JD-taal, recruiter screening) blijven bestaan en hebben hun eigen controles nodig.

Waar gestructureerde gedragsinterviews tekortschieten

Het eerlijke deel. Zelfs een goed ontworpen gestructureerde gedragsronde heeft beperkingen:

Verbale vlotheid-verwarring. Gedragsinterviews belonen kandidaten die samenhangend over hun werk kunnen vertellen. Sommige uitstekende engineers en operators worstelen met dit format, zelfs wanneer hun werkelijke werk sterk is. Combineer gedrag met werksteekproeven voor compensatie.
Geheugen en repeteren. Kandidaten die veel interviews hebben gedaan, hebben kant-en-klare STER-verhalen. Het onderscheid maken tussen geoefende antwoorden en echte antwoorden is moeilijker dan de onderzoeksliteratuur erkent.
Culturele en taalgeschiktheid. STER-format is natuurlijker in sommige culturen en communicatiestijlen dan in andere. Ondervraagingsvaardigheden zijn belangrijk — hetzelfde antwoord kan 3 of 5 scoren, afhankelijk van of de interviewer vervolgvragen stelt.

De remedies zijn niet "stop met gestructureerde interviews" — de validiteit is te goed vastgesteld. Ze zijn: combineer gestructureerd gedrag met minstens één ander experiment (werksteekproef, cognitieve test, technisch interview), train interviewers op ondervragen, en let op rubric-drift over aanwervingscycli.

Praktische implicaties

Als je het onderzoek serieus neemt, zijn de implicaties:

Een gedragsronde is voordelig. Het is een van de weinige interview-formats die je slaagpercentage significant verbeteren.
Het werkt alleen als het werkelijk gestructureerd is. Gedragsvraagtekens zijn niet genoeg — dezelfde vragen, verankerde schalen, pre-debriefing scoring.
Combineer het met één ander experiment. Gestructureerd gedrag plus gestructureerd technisch (of werksteekproef) is de configuratie met de hoogste gepubliceerde validiteit. Zie ons artikel over de meest geldige aanwervingsloop.
Kalibreer per kwartaal. Drift is echt. Rubrics op papier doen niets als interviewers ermee stoppen.

De ontwerpgids en de voorbeeldvragen behandelen de operationele zijde. Het onderzoek is de reden om dit werk te doen — het format is een van de weinige dingen in aanwerving waar het evidentiebewijsgebruik werkelijk ondersteunt.

Bronnen

Schmidt, F. L., & Hunter, J. E. (1998). The validity and utility of selection methods in personnel psychology: Practical and theoretical implications of 85 years of research findings. Psychological Bulletin, 124(2), 262–274.
Sackett, P. R., Zhang, C., Berry, C. M., & Lievens, F. (2022). Revisiting meta-analytic estimates of validity in personnel selection: Addressing systematic overcorrection for restriction of range. Journal of Applied Psychology, 107(11), 2040–2068.
McDaniel, M. A., Whetzel, D. L., Schmidt, F. L., & Maurer, S. D. (1994). The validity of employment interviews: A comprehensive review and meta-analysis. Journal of Applied Psychology, 79(4), 599–616.

gestructureerde interviewsvoorspellende validiteitaanwervingsonderzoekinterview validiteit

Gestructureerde gedragsinterviews: Wat het onderzoek werkelijk zegt

De hoofdbevinding

Wat "gestructureerd" betekent in het onderzoek

Waarom ongestructureerde interviews zo zwak zijn

De diversiteitsbevinding

Waar gestructureerde gedragsinterviews tekortschieten

Praktische implicaties

Bronnen

Gerelateerde artikelen

Gestructureerd Interview vs Werksteekproef: Wat Voorspelt Prestatie Beter?

Voorspellende validiteit van aanwervings methodes: Wat onderzoek werkelijk zegt

Criteria Corp vs SHL: Validatieonderzoek en Wat de Getallen Betekenen