Cómo detectar respuestas de ensayo generadas por IA en evaluaciones de candidatos
Las malas noticias sobre los detectores genéricos de IA
Los detectores genéricos de «contenido generado por IA» —Turnitin, GPTZero, ZeroGPT— tienen una tasa de falsos positivos medida entre 4 y 15 % en escritura nativa en inglés, y peor en escritores no nativos. No son lo suficientemente precisos para rechazar un candidato sobre esta base.
Si estás usando un detector genérico de IA para fallar candidatos, detente. Estás filtrando por «no escribe como un libro de texto» más de lo que filtra por «usó IA». Estás sesgando contra escritores ESL y contra escritores junior que pulen sus borradores.
Las señales que realmente importan
Las señales útiles de detección son de comportamiento, no léxicas:
- Tiempo hasta el primer golpe de tecla. Un candidato que lee el enunciado durante 15 segundos y luego escribe 800 palabras pulidas en 90 segundos no escribió esas palabras.
- Eventos de pegado. Un pegado limpio de la respuesta completa no es un candidato escribiendo en vivo. La capa de integridad registra cada evento de pegado con longitud y marca de tiempo.
- Distancia de edición durante la composición. La escritura en vivo produce una línea de tiempo de pulsaciones desordenada —inserciones, eliminaciones, saltos de cursor. Pegar y pulir produce una línea de tiempo plana, solo anexión.
- Cambios de pestaña y enfoque. ¿Abandonó el candidato la página a mitad de la pregunta durante 40 segundos? Probablemente fueron a preguntarle a un LLM.
- Desajuste de voz y texto. Si tienes una entrevista grabada con el mismo candidato, compara su vocabulario hablado con su ensayo escrito. Los ensayos de IA usan un registro mucho más amplio y pulido que el habla del candidato.
Las señales a ignorar
- Características léxicas que «suenan a IA». «Ahondar», «tapiz», «aprovechar» —estas están contaminadas. Los candidatos reales las usan. Los modelos reales las usan. No puedes separar los dos únicamente por la elección de palabras.
- Gramática perfecta. Muchos candidatos escriben a través de Grammarly. Eso no es trampa; es cómo escribe la web moderna.
- Estructura genérica («En conclusión…»). La estructura genérica es lo que la mayoría de los candidatos han aprendido a escribir desde la secundaria.
El patrón que funciona en la práctica
- Ejecuta ensayos con detección de pegado activada. Rechaza pegados silenciosos, o advierte al candidato que activó uno —tú decides. Lo que no debes hacer es no grabar nada y luego adivinar.
- Superficie señales de comportamiento en el informe, no una sola «puntuación de confianza en IA». Un revisor que ve «30 segundos de lectura + un pegado de 740 caracteres a 0:31» puede decidir; un revisor que ve «67 % IA» no puede.
- Empareja el ensayo con un seguimiento en vivo de 5 minutos. Pide al candidato que explique un párrafo específico que escribió. Los candidatos que pegan y pulen se desmoronan rápidamente en un seguimiento. Los autores reales no.
Una nota sobre política
Comunica a los candidatos con anticipación si se permiten herramientas de IA. La mayoría de las empresas deben decir «no en esta etapa». Una pequeña minoría debe decir «sí, y cuéntanos cómo la usaste» —una postura válida para roles senior donde la IA es parte del trabajo real. Lo que no debes hacer es penalizar silenciosamente el uso de IA que nunca prohibiste; eso es tanto injusto como indefendible si un candidato apela.
Cómo ClarityHire expone esto
Nuestra capa de integridad captura eventos de pegado, líneas de tiempo de pulsaciones y señales de enfoque de pestaña para cada evaluación. El revisor ve la línea de tiempo, no una sola puntuación de caja negra. La detección de contenido con IA se ejecuta como una entrada entre varias —nunca como un rechazo automático. Combina con una ronda de seguimiento en vivo y tienes un proceso defendible, equitativo para los candidatos.
TL;DR
No falles candidatos en detectores lexicales de «IA» —las tasas de falsos positivos son demasiado altas. En cambio, captura comportamiento (eventos de pegado, tiempo en la tarea, enfoque de pestaña), expón la línea de tiempo a un revisor humano y controla con un seguimiento corto en vivo. Esa combinación es lo que un proceso de selección competente se ve en 2026.