Guías de contratación

Cómo calificar ejercicios de código de forma consistente entre entrevistadores

ClarityHire Team(Editorial)2026-05-124 min read

El problema que realmente estás solucionando

Un ingeniero senior lee la entrega de un candidato y le da una contratación. Un ingeniero senior diferente lee la misma entrega y le da una no contratación. No están ambos en lo correcto. Uno de ellos está filtrando gusto personal en la puntuación y llamándolo juicio.

La falta de confiabilidad entre evaluadores es la fuente única más grande de aleatoriedad en un embudo de contratación que ya tiene mucha aleatoriedad. También afecta desproporcionadamente a los candidatos de orígenes no tradicionales, porque «simplemente tuve una vibra» se asigna limpiamente a hacer coincidir patrones con el pasado del propio entrevistador.

Paso 1 — rúbricas con anclas conductuales

Una rúbrica que dice «Calidad del código: 1–5» no es una rúbrica. Es una vibra renderizada como un número. Una rúbrica es lo que obtienes cuando cada nivel tiene un ancla conductual — una descripción de lo que el candidato habría tenido que hacer para obtener una calificación de 3 en lugar de 4.

Ejemplo, para un eje de «descomposición de problemas»:

5 — Nombra los subproblemas correctos antes de escribir código. Reformula el problema al entrevistador con sus propias palabras. Identifica un caso límite sin ser solicitado.
3 — Se descompone correctamente una vez que comienzan a escribir. Pierde un caso límite pero lo aborda cuando se le pregunta.
1 — Comienza a codificar antes de haber entendido el problema. Tiene que ser redirigido dos veces.

Una rúbrica correcta tiene 4–6 ejes como este. El punto es que dos entrevistadores leyendo el mismo transcript deberían terminar en el mismo nivel en cada eje, porque los anclas son observables.

Paso 2 — sesiones de calibración, mensuales

Extrae seis envíos del mes pasado. Elimina nombres. Cada entrevistador los califica de forma independiente, luego el grupo se reúne y compara puntuaciones eje por eje. La discusión es el producto, no el promedio.

Estás buscando:

Ejes donde la varianza es alta. Si las puntuaciones de «comunicación» varían ampliamente, tus anclas no son suficientemente conductuales. Reescríbelas.
Entrevistadores que sistemáticamente califican alto o bajo. No es una mala persona — solo un cambio de calibración. La solución es retroalimentación, no remoción.
Cambio cultural. Lo que considerabas un «3» hace ocho meses podría ser un «4» hoy porque la barra se movió. Está bien, pero hazlo explícito.

Ejecuta esto mensualmente con un equipo pequeño, trimestralmente con uno más grande. Sáltalo por un trimestre y la varianza vuelve.

Paso 3 — mata el sesgo de anclaje el día de

Dos anti-anclas que no cuestan nada y ahorran mucho:

Califica de forma independiente antes del análisis. Cada entrevistador escribe su puntuación de rúbrica antes de escuchar lo que pensaba el otro entrevistador. Luego compara. Esta es la intervención de mayor apalancamiento único en todo el sistema.
Anonimiza donde sea posible. Para envíos de código asincrónico, elimina nombre, foto, escuela y campos de empresa anterior de la vista del revisor. La vista de calificación debe estar en modo anonimizado por defecto por la misma razón que lo hacen las revistas revisadas por pares.

Paso 4 — IA como verificación de calibración, no como el calificador

Un calificador LLM bien ajustado es consistente entre envíos de una manera que los humanos no lo son. Úsalo como piso de ruido: si tu revisor humano calificó un envío con un 4 en corrección y la IA lo calificó con un 2, esa es una señal útil — ve a verlo. El desacuerdo es a menudo el artefacto más informativo en el bucle.

Nunca dejes que la IA autocalifique para auto-rechazar. Nunca la muestres a un revisor antes de que haya calificado de forma independiente. Úsala post-hoc, como una verificación de cordura.

Lo que se ve así en ClarityHire

La vista de calificación muestra el envío del candidato, la rúbrica con anclas conductuales, y (opcionalmente) una puntuación de primer paso generada por IA que se oculta hasta que el revisor se compromete con la suya. La vista de calibración de entrevistadores revela la varianza entre evaluadores por eje en el tiempo para que puedas ver qué ejes se están desviando antes de que lo hagan los candidatos.

Empareja esto con el scorecard estructurado en el siguiente nivel y la misma disciplina de calibración se extiende desde «¿pasó este envío?» hasta «¿contratamos a esta persona?».

TL;DR

La consistencia proviene de anclas de rúbrica conductuales, calificación independiente antes del análisis, sesiones de calibración mensuales, e IA como verificación de cordura (nunca como el calificador). Salta cualquiera de estos y tu entrevista de código se convierte en un volado con pasos adicionales.

calibrar entrevistadores de códigocalificar ejercicios de código consistentementecalibración de entrevistadorescontratación justarúbrica de contratación

Cómo calificar ejercicios de código de forma consistente entre entrevistadores

El problema que realmente estás solucionando

Paso 1 — rúbricas con anclas conductuales

Paso 2 — sesiones de calibración, mensuales

Paso 3 — mata el sesgo de anclaje el día de

Paso 4 — IA como verificación de calibración, no como el calificador

Lo que se ve así en ClarityHire

TL;DR

Artículos relacionados

Cómo construir el loop de contratación con la mayor validez posible

Cómo crear una rúbrica de contratación para ingenieros de software senior

Cómo escribir preguntas eliminatorias para formularios de candidatura (sin perder a los mejores candidatos)