Come valutare gli esercizi di codice coerentemente fra intervistatrici
Il problema che stai veramente risolvendo
Un engineer senior legge la sottomissione di una candidata e le dà una hire. Un engineer senior diverso legge la stessa sottomissione e le dà un no hire. Non possono entrambi avere ragione. Uno di loro sta filtrando gusto personale nel voto e chiamandolo giudizio.
L'inaffidabilità inter-valutatrice è l'unica maggiore fonte di rumore in un funnel di hiring che ha già un sacco di rumore. Inoltre danneggia sproporzionatamente le candidate da background non-tradizionali, perché «ho avuto una sensazione» si correla direttamente al pattern-matching contro il passato dell'intervistatore.
Step 1 — rubriche con ancore comportamentali
Una rubrica che dice «Qualità del codice: 1–5» non è una rubrica. È una sensazione renderizzata come numero. Una rubrica è quello che ottieni quando ogni livello ha un'ancora comportamentale — una descrizione di cosa la candidata avrebbe dovuto fare per ottenere un 3 invece di un 4.
Esempio, per un asse «decomposizione del problema»:
- 5 — Nomina i sottoproblemi corretti prima di scrivere codice. Riformula il problema all'intervistatore con sue proprie parole. Identifica un edge case non richiesto.
- 3 — Decompone correttamente una volta che inizia a scrivere. Manca un edge case ma lo affronta quando chiesto.
- 1 — Inizia a codificare prima di aver compreso il problema. Deve essere riorientato due volte.
Una rubrica corretta ha 4–6 assi come questo. Il punto è che due intervistatrici leggendo lo stesso transcript dovrebbero finire allo stesso livello su ogni asse, perché le ancore sono osservabili.
Step 2 — sessioni di calibrazione, mensili
Estrai sei sottomissioni dall'ultimo mese. Togli nomi. Ogni intervistatore valuta indipendentemente, poi il gruppo si riunisce e confronta i voti asse per asse. La discussione è il prodotto, non la media.
Stai cercando:
- Assi dove la varianza è alta. Se i voti di «comunicazione» oscillano selvaggiamente, le tue ancore non sono abbastanza comportamentali. Riscrivile.
- Intervistatrici che sistematicamente votano alto o basso. Non una brutta persona — solo uno shift di calibrazione. La soluzione è feedback, non rimozione.
- Drift culturale. Quello che consideravi un «3» otto mesi fa potrebbe essere un «4» oggi perché il bar si è spostato. Va bene, ma rendilo esplicito.
Esegui questo mensilmente con team piccoli, trimestralmente con team più grandi. Salta un trimestre e la varianza torna.
Step 3 — uccidi il bias di ancoraggio il giorno stesso
Due anti-ancore che non costano nulla e salvano un sacco:
- Valuta indipendentemente prima del debriefing. Ogni intervistatrice scrive il suo voto di rubrica prima di sentire cosa ha pensato l'altra intervistatrice. Poi confrontate. Questo è l'intervento di massimo impatto singolo in tutto il sistema.
- Anonimizza dove possibile. Per sottomissioni asincrone di codice, togli nome, foto, scuola, e campi di azienda precedente dalla vista del reviewer. La vista di valutazione dovrebbe default a modalità anonimizzata per lo stesso motivo che fanno le riviste peer-reviewed.
Step 4 — IA come check di calibrazione, non come valutatrice
Un grader LLM ben sintonizzato è coerente fra sottomissioni in un modo che i umani non sono. Usalo come floor di rumore: se il tuo reviewer umano ha votato una sottomissione 4 su correttezza e l'IA l'ha votata 2, quello è un segnale utile — vai a guardare. Il disaccordo è spesso l'artefatto più informativo nel loop.
Non lasciare mai che l'IA auto-scorings auto-reject. Non mostrarla mai a un reviewer prima che abbia votato indipendentemente. Usala post-hoc, come sanity check.
Come appare in ClarityHire
La vista di valutazione mostra la sottomissione della candidata, la rubrica con ancore comportamentali, e (opzionalmente) un voto first-pass generato da IA che è nascosto finché il reviewer non ha dato il suo. La vista di calibrazione intervistatrice mostra la varianza inter-rater per asse nel tempo così puoi vedere quali assi stanno driftando prima che lo facciano le candidate.
Abbina questo con lo scorecard strutturato downstream e la stessa disciplina di calibrazione persiste da «ha passato questa sottomissione» fino a «andiamo a assumere questa persona».
TL;DR
La coerenza viene da ancore di rubrica comportamentali, votazione indipendente prima del debriefing, sessioni mensili di calibrazione, e IA come sanity check (mai come valutatrice). Salta uno di questi e il tuo coding interview diventa un lancio di moneta con step extra.