Notarea cu IA pentru evaluări tip eseu: unde ajută și unde dăunează
Ce notează bine LLM-urile
LLM-urile moderne sunt surprinzător de bune la:
- Verificarea acoperirii rubricii. „A răspuns candidatul la toate cele cinci întrebări?" Răspuns banal.
- Calitate de suprafață. Gramatică, structură, lungime, dovezi citate — toate evaluabile cu încredere.
- Consecvență între lucrări. Spre deosebire de un evaluator uman la lucrarea cu numărul 50, criteriul LLM la lucrarea cu numărul 500 e identic cu cel de la lucrarea numărul 1.
- Observații la prima vedere. Identificarea punctelor forte sau a slăbiciunilor notabile pentru ca un evaluator uman să le confirme.
Pentru aceste sarcini, notarea cu LLM reduce constant timpul de evaluare cu 60–80 %, fără pierdere de echitate atunci când e cuplată cu suprareglarea umană.
Ce notează prost LLM-urile
- Profunzime de domeniu. Un LLM care citește un eseu de inginerie de sisteme la nivel senior nu poate spune cu siguranță dacă deciziile arhitecturale au fost corecte. Va produce prostii care sună convingător.
- Originalitate și intuiție. LLM-urile recompensează în exces răspunsurile fluente și generice și subevaluează răspunsurile concise și pătrunzătoare.
- Ton și discernământ. „Candidatul e exagerat de încrezător sau hotărât în mod adecvat?" Oamenii sesizează asta; LLM-urile nu.
- Orice element prin care poate transpărea identitatea candidatului. CV-uri, nume și afilieri universitare distorsionează măsurabil judecata LLM-urilor.
Tiparul care funcționează
- IA ca primă trecere. LLM-ul produce note provizorii pentru fiecare dimensiune a rubricii și o listă de observații. Anonimizează intrarea înainte.
- Omul ca decident. Un evaluator citește lucrarea candidatului, ieșirea IA și confirmă sau o suprareglează. E forțat să se implice, nu să bifeze formal, pentru că rubrica are ancore care cer dovezi.
- Audit periodic. Eșantionează lunar un procent din cazurile suprareglate de oameni. Dacă LLM-ul e suprareglat constant într-o direcție (de exemplu, notează prea aspru candidații juniori), ajustează promptul.
Ce nu trebuie făcut niciodată
- Respingere automată doar pe baza notei IA.
- Afișarea notei IA evaluatorului uman prima dată. Să noteze independent și abia apoi să comparați. Efectul de ancorare e real.
- Folosirea notării cu IA pentru evaluări al căror enunț permite variație extremă — sarcini creative deschise. Acolo varianța strică tot scopul.
Serviciul de notare ClarityHire implementează acest tipar implicit pentru eseuri și lucrări tip take-home. Evaluatorul vede rubrica, lucrarea candidatului și ieșirea IA alături, iar suprareglarea explicită e obligatorie pentru a trimite nota finală.