Entrevista estructurada vs prueba de muestra de trabajo: ¿cuál predice mejor el desempeño?
La respuesta corta
Ambos métodos están en lo alto de los rankings de validez predictiva. En Sackett et al. (2022), los coeficientes de validez corregidos rondan r = 0,42 para las entrevistas estructuradas y r = 0,33 para las muestras de trabajo. Las estimaciones más antiguas de Schmidt y Hunter (1998) sitúan a las muestras de trabajo algo por encima; el campo lleva treinta años discutiendo cifras exactas.
La conclusión práctica no ha cambiado: son los dos métodos sobre los que merece la pena construir un loop de contratación. Casi todo lo demás es incremental.
La pregunta interesante no es "¿cuál es mejor en abstracto?", sino "¿cuál es mejor para la decisión que estás intentando tomar?"
Qué mide realmente cada método
Entrevista estructurada
El candidato responde a un conjunto fijo de preguntas vinculadas a competencias relevantes para el puesto. Todos los candidatos reciben las mismas preguntas. Cada respuesta se puntúa contra la misma rúbrica anclada. El trabajo del entrevistador es elicitar y puntuar, no descubrir.
Qué mide bien:
- Razonamiento verbal bajo presión. ¿Puede el candidato pensar en voz alta, estructurar una respuesta y reaccionar a preguntas de seguimiento?
- Comportamiento pasado en situaciones similares. Las preguntas conductuales ("háblame de una vez en que…") aprovechan el historial real del candidato.
- Comunicación. ¿Podrá esta persona colaborar de verdad con el equipo?
Qué mide mal:
- Oficio práctico. Quien describe gran código no necesariamente lo escribe.
- Concentración sostenida en una tarea no trivial. Tramos de veinte minutos no te dicen quién puede sostener un problema en la cabeza durante dos horas.
Prueba de muestra de trabajo
El candidato realiza una tarea representativa extraída del puesto real. Los detalles del diseño están en nuestra guía de diseño de muestras de trabajo.
Qué mide bien:
- Desempeño directo en el puesto. Ese es justo el punto. Estás observando aquello para lo que contratas.
- Calidad del entregable. El artefacto existe. Puedes evaluarlo.
- Fluidez con las herramientas. ¿Conoce esta persona el editor, el lenguaje, el framework?
Qué mide mal:
- Comunicación y colaboración. Una muestra de trabajo en solitario no te dice nada sobre cómo razona con un colega.
- Adaptabilidad a problemas nuevos. Una tarea de 90 minutos está necesariamente acotada; no puede sondear cómo abordaría el candidato un reto abierto.
Dónde se solapan los métodos y dónde no
Tres estudios de validez predictiva — Roth et al. (2005), Schmidt y Hunter (1998) y Sackett et al. (2022) — coinciden en que las entrevistas estructuradas y las muestras de trabajo aportan validez incremental la una sobre la otra. Traducción: combinar ambas es significativamente mejor que cualquiera por separado, porque no miden el mismo constructo.
El gráfico que importa:
| Pregunta | Entrevista estructurada | Muestra de trabajo |
|---|---|---|
| ¿Puede hacer el trabajo? | señal débil | señal fuerte |
| ¿Puede colaborar? | señal fuerte | sin señal |
| ¿Puede comunicar trade-offs? | señal fuerte | señal débil |
| ¿Puede entregar bajo restricciones reales? | señal débil | señal fuerte |
| Preocupaciones de impacto adverso | moderadas | bajas |
| Tiempo de entrega en el loop | bajo | medio-alto |
| Esfuerzo requerido al candidato | bajo | alto |
Cuándo gana la entrevista estructurada
- Puestos de liderazgo senior. Estás contratando por juicio acumulado en años, no por un artefacto concreto. Las entrevistas conductuales estructuradas son la herramienta primaria correcta.
- Puestos puramente de colaboración (manager, coach, track de EM). El trabajo es la conversación.
- Cuando no puedes simular el trabajo éticamente. Algunos puestos — terapeuta, asesor financiero, ciertos roles médicos — no pueden encogerse honestamente en una muestra de 90 minutos.
- Sensibilidad del pool de candidatos. Si una muestra de trabajo larga sacaría del funnel a candidatos cualificados, una entrevista estructurada compacta es el trade correcto.
Cuándo gana la muestra de trabajo
- Puestos de IC con peso de oficio. Ingenieros de software, diseñadores, analistas de datos, copywriters. El artefacto te dice lo que la entrevista solo puede aproximar.
- Contrataciones de alto riesgo donde los errores son caros. El coste de la muestra de trabajo se amortiza rápido.
- Puestos en los que los entrevistadores discrepan sistemáticamente. La rúbrica sobre un artefacto tangible disciplina antes el desacuerdo que la rúbrica sobre una conversación.
- Puestos con preocupaciones de defensibilidad legal. Una muestra de trabajo es una muestra directa del puesto. Los tribunales y reguladores lo entienden.
Por qué la mayoría de equipos debería usar ambos
Si tienes un solo hueco en el loop, elige la muestra de trabajo para puestos de oficio y la entrevista estructurada para puestos de liderazgo. Si tienes dos huecos — y la mayoría de loops los tiene — usa los dos y diséñalos para sondear competencias distintas.
Un loop típicamente sólido de ingeniería:
- Screen: entrevista estructurada de 30 minutos (motivación, proyecto reciente, comunicación).
- Take-home o muestra de trabajo onsite: 90 minutos, autocontenida, evaluada por rúbrica en 15 minutos.
- Entrevista de revisión de la muestra de trabajo. (Por qué importa esto.)
- Ronda conductual estructurada sobre colaboración, ownership, conflicto.
Total: ~4 horas de tiempo del candidato. Dos de las cuatro rondas ejecutan los métodos de mayor validez. Las otras dos exprimen señal extra del artefacto y sondean dimensiones de colaboración que la muestra no alcanza.
El matiz de integridad
En 2026, una muestra de trabajo hecha sin supervisión ya no es un artefacto privado. Los asistentes de código por IA pueden producir un primer borrador creíble de la mayoría de tareas take-home. Un test de alta validez no es una señal de alta validez si el candidato no produjo la respuesta.
Tres mitigaciones:
- Empareja cada take-home con una entrevista de revisión.
- Usa señales de integridad — patrones de pulsaciones, coherencia de código, cambios de pestaña — para señalar sesiones sospechosas y revisarlas con lupa.
- Apóyate en muestras de trabajo onsite o en vivo cuando la apuesta justifica la logística extra.
Dónde encaja ClarityHire
ClarityHire envía ambas mitades del stack:
- Scorecards estructurados con rúbricas ancladas, idénticas para cada entrevistador.
- Plantillas de muestra de trabajo con sandboxes que ejecutan código real y rúbricas por lenguaje.
- Señales de integridad sobre las entregas take-home para que la validez de la muestra sobreviva al contacto con la IA.
Elige el método adecuado para el puesto. Después córrelo igual para cada candidato. La disciplina es donde vive la validez de verdad.