AI-оценка эссе: где это помогает, а где вредит
Что LLM оценивают хорошо
Современные LLM удивительно хорошо справляются с:
- Проверкой покрытия рубрики. "Кандидат затронул все пять вопросов?" Тривиально решаемый вопрос.
- Поверхностным качеством. Грамматика, структура, объём, цитирование доказательств — всё оценивается надёжно.
- Консистентностью по всем работам. В отличие от человека-рецензента на 50-й работе, стандарт LLM на 500-й работе такой же, как на первой.
- Первичными наблюдениями. Выявление заметных сильных или слабых сторон для проверки человеком-рецензентом.
Для этих задач грейдинг LLM надёжно сокращает время рецензирования на 60–80% без потери справедливости при сочетании с возможностью переопределения человеком.
Что LLM оценивают плохо
- Глубину предметной области. LLM, читающий эссе старшего инженера по системам, не может надёжно определить, были ли архитектурные решения правильными. Он выдаст уверенно звучащий бред.
- Оригинальность и проницательность. LLM переоценивают беглые обобщённые ответы и недооценивают краткие вдумчивые.
- Тон и суждение. "Слишком ли самоуверен этот кандидат или адекватно решителен?" Люди это улавливают; LLM нет.
- Всё, где идентичность кандидата может просочиться. Резюме, имена, университетская принадлежность измеримо смещают суждения LLM.
Паттерн, который работает
- AI как первый проход. LLM производит черновые оценки по размерам рубрики и список наблюдений. Сначала анонимизируйте входные данные.
- Человек как принимающий решение. Рецензент читает кандидатскую работу, результат AI и подтверждает или переопределяет. Они вынуждены участвовать, а не штамповать, потому что рубрика имеет якоря, требующие доказательств.
- Аудит периодически. Выборочно проверяйте процент случаев переопределения человеком каждый месяц. Если LLM переопределяется в согласованном направлении (например, суровая оценка младших кандидатов), отрегулируйте промпт.
Чего никогда не делать
- Автоматическое отклонение на основании оценки AI.
- Показ оценки AI рецензенту сначала. Пусть оценивает независимо, потом сравнивают. Якорение реально.
- Использование грейдинга AI для оценок, где промпт допускает экстремальные вариации — открытые творческие задачи. Там дисперсия побеждает смысл.
ClarityHire's грейдинг-сервис реализует этот паттерн по умолчанию для эссе и take-home работ. Рецензент видит рубрику, работу кандидата и результат AI рядом, с требуемым переопределением для отправки финальной оценки.