Validnost и справедlivost тестов механических рассуждений: что показывает исследование
Вопрос достоверности
Прежде чем использовать тесты механических рассуждений для принятия решений о найме, вам нужно узнать: действительно ли эти тесты измеряют то, что они утверждают? Предсказывают ли они производительность работы? И критически: справедливы ли они для всех кандидатов независимо от происхождения?
Доказательства сильные — но с важными оговорками. Вот что показывает исследование.
Прогностическая валидность: действительно ли эти тесты предсказывают производительность?
Короткий ответ — да. Десятилетия промышленного исследования демонстрируют, что Bennett и Wiesen тесты механических способностей коррелируют с производительностью работы в механических и технических ролях.
Что показывает исследование
Bennett Mechanical Comprehension Test:
- Коррелирует 0.40-0.60 с оценками производительности работы для операторов оборудования, рабочих по обслуживанию и техников
- Предсказывает успех обучения и скорость обучения
- Валидность последовательна в промышленном производстве, коммунальных услугах и строительстве
- Достижения производительности остаются стабильными 2-5 лет после найма (не краткосрочный эффект удачи)
Wiesen Test of Mechanical Aptitude:
- Коррелирует 0.35-0.55 с производительностью работы, похоже на Bennett
- Одинаково валидна для ролей управления оборудованием и обслуживания
- Набирает импульс в промышленном найме благодаря более быстрому администрированию
Для контекста корреляция 0.40-0.60 сильна в исследовании найма. Производительность интервью коррелирует 0.20-0.35 с успехом работы. Общие тесты IQ коррелируют 0.25-0.45. Тесты механических рассуждений выдерживают сравнение с любым стандартным методом найма.
Почему существует корреляция
Корреляция не магия. Это потому, что:
-
Механическое мышление предсказывает скорость обучения. Кто-то с высокой механической способностью учится новому оборудованию и системам быстрее. Кто-то с меньшей способностью нуждается в большем времени и надзоре. Оба могут учиться; один быстрее.
-
Это предсказывает способность устранения неполадок. Большинство технических ролей включают проблемы, которые не в руководстве. Механическое мышление предсказывает, может ли кандидат рассуждать о новых ситуациях или только следовать процедурам.
-
Это специфично для домена. Тест измеряет что-то релевантное для работы, в отличие от тестов общей личности или неструктурированных интервью. Это не предсказывает успех в несвязанных областях.
-
Это дополняет опыт. Высокий балл механического мышления плюс релевантный опыт — сильная комбинация. Высокое механическое мышление без опыта обещающе, но непроверено.
Справедливость и демографическая предвзятость
Вот где разговор становится важным. Тесты механических рассуждений имеют разные демографические паттерны, чем некоторые другие инструменты найма, и вам нужно их понимать.
Что показывают данные
Пол: Мужчины в среднем получают более высокие баллы по тестам механических рассуждений. Разрыв согласован между Bennett и Wiesen: примерно 0.5-1.0 стандартного отклонения. Это значительно — это означает, что в самых высоких процентилях меньше женщин.
Почему? Исследование предлагает несколько факторов:
- Социализация: мальчикам часто больше поощряют STEM и механическую игру
- Подвергаемость: меньше женщин занимаются механическими профессиями (приводя к меньшему практическому опыту среди кандидатов)
- Знакомство с тестом: если тест использует язык или фреймворк более знакомый мужчинам, это ставит в невыгодное положение женщин, незнакомых с этим контекстом
- Эффекты беспокойства: угроза стереотипа (осознание отрицательных стереотипов о вашей группе) может подавить производительность на тестах, где стереотип является заметным
Возраст: Пожилые кандидаты получают слегка выше баллы, вероятно, благодаря накопленному практическому опыту. Молодые кандидаты с формальным техническим образованием часто получают баллы так же высоко, как пожилые кандидаты с неформальным опытом.
Раса/этническая принадлежность: Исследование показывает меньшие эффекты, чем пол. Некоторые исследования находят лёгкие расовые различия, но они исчезают или меняются в обратном направлении, когда вы учитываете образовательный и опытный фон. Различия, которые существуют, типично приписываемы различиям в возможностях и подвергаемости, не способности.
Предыдущий технический опыт: Это самый большой предсказатель. Кто-то с 10 годами механического опыта получит намного выше баллы, чем выпускник средней школы без опыта, независимо от базовой способности.
Что это означает для справедливого найма
Разрыв по полу реален и имеет значение. Если вы нанимаете только кандидатов выше 75-го процентиля по механическому мышлению, у вас будет меньше женщин в пуле кандидатов — не потому что женщины не могут выполнять работу, но потому что они в среднем получают более низкие баллы на тесте, на который влияют социализация и возможности опыта.
Это не означает, что тесты механических рассуждений «предвзяты» в научном смысле (прогностическая предвзятость минимальна — они предсказывают производительность одинаково хорошо для мужчин и женщин). Но это означает, что они могут иметь неблагоприятное воздействие при невнимательном использовании.
Как справедливо использовать тесты механических рассуждений
1. Используйте их в контексте, не как единственные ворота
Механические рассуждения должны быть одним сигналом в комплексной стратегии оценки, не единственным. Комбинируйте с:
- Образцы работы — практическая оценка механического решения проблем
- Структурированные интервью — вопросы об устранении неполадок и способности обучения
- Портфолио или демонстрированный опыт — прошлые проекты, сертификаты, история работы
- Поведенческие интервью — надёжность, коммуникация, командная работа
Кандидат с меньшим механическим мышлением, но сильным демонстрируемым опытом и хорошей производительностью интервью абсолютно может быть хорошим наймом.
2. Используйте нормы, специфичные для ролей, и разумные пороги
Не устанавливайте жёсткие минимальные пороги (например, «75-й процентиль или автоматическое отклонение»). Вместо этого:
- Установите мягкий минимум — например, «ниже 25-го процентиля — флаг для расследования других сильных сторон»
- Установите предпочитаемый диапазон — например, «50-й-75-й процентиль типичен для успеха»
- Дозвольте гибкость, когда другие факторы сильны
Это избегает дисквалификации кандидатов, которые имеют релевантный опыт или демонстрируют способность другими способами.
3. Предложите практические элементы и стандартизируйте администрирование
Часть разрыва по полу на механических тестах происходит от тревоги тестирования и незнакомства с форматом. Вы можете это сократить:
- Дайте всем кандидатам практические элементы перед реальным тестом (удаляет сюрприз, снижает тревогу)
- Администрируйте в спокойной, комфортной среде (снижает стресс, подавляющий производительность)
- Обеспечьте согласованные ограничения времени и инструкции (удаляет произвол)
- Предложите приспособления для кандидатов с инвалидностью
Эти шаги улучшают валидность теста (вы измеряете механическое мышление, не тревогу) и снижают предвзятость.
4. Мониторьте ваши результаты
Отследите ваших наёмов в течение времени:
- Мужчины и женщины, нанятые через тестирование механических рассуждений, выполняют работу одинаково?
- Люди разного происхождения выполняют работу одинаково?
- Есть ли демографические группы, получающие намного более низкие баллы в среднем? (Может указывать на проблему справедливости, стоящую расследования)
Если вы находите расхождения в результатах найма, несмотря на равную производительность работы, вам может потребоваться отрегулировать, как вы взвешиваете тест или как вы его администрируете.
5. Будьте прозрачны с кандидатами
Если вы используете тесты механических рассуждений, объясните почему:
«Мы используем тест механических рассуждений для этой роли, потому что работа включает понимание механических систем, устранение неполадок оборудования и обучение новой технологии. Тест помогает нам выявить кандидатов, которые будут быстро учиться в этой роли.»
Будьте честны о том, что тест измеряет и чего не измеряет:
«Этот тест измеряет вашу способность к механическому мышлению — не вашу личность, вашу надёжность или вашу способность обучения. Это один фактор в нашем решении. Сильный практический опыт может скомпенсировать более низкий балл теста.»
Пробелы в исследованиях и неизвестности
Исследование тестов механических рассуждений солидно, но не идеально:
- Долгосрочные результаты: Большинство исследований отслеживают производительность 2-5 лет после найма. Более долгосрочные данные о прогрессии карьеры и развитии были бы ценны.
- Современные применения: Исследование Bennett обширно (80+ лет). Данные Wiesen растут. Но ни один не был обширно изучен в полностью удалённых или гибридных рабочих средах.
- Интерсекциональность: Большинство исследований отчитывают пол или расу отдельно. Меньше исследований исследует, как эти факторы взаимодействуют, или как множественные маргинализированные идентичности влияют на результаты тестирования.
- Исследование вмешательства: Мы знаем, что разрыв по полу существует. Меньше исследований исследует, какие вмешательства (практические элементы, изменения формата, разные дизайны тестов) наиболее эффективно снижают разрыв без жертвования валидностью.
Если вы используете эти тесты, рассмотрите соответствие своих собственных данных результатов исследовательскому сообществу. Компании, которые отслеживают найм и производительность систематически, могут помочь заполнить эти пробелы.
Финальное слово о валидности и справедливости
Тесты механических рассуждений, такие как Bennett и Wiesen, валидны — они предсказывают производительность работы для механических и технических ролей. Эта валидация солидна и согласована в исследовании.
Они показывают демографические различия, особенно в отношении пола, которые могут влиять на результаты найма. Эти различия частично приписываемы различиям в возможностях и опыте, не различиями в способности. Справедливое использование тестов требует:
- Рассмотрение их как одного сигнала, не единственных ворот
- Использование разумных пороговых значений с гибкостью
- Стандартизация администрирования для снижения эффектов тревоги
- Мониторинг результатов в течение времени для определения непредвиденных последствий
- Комбинирование с другими оценками, которые измеряют способность по-разному
Когда используется тщательно и комбинируется с другими методами найма, тесты механических рассуждений — среди наиболее прогностичных и справедливых инструментов оценки доступные для промышленного и технического найма. Ключ — использовать их как часть комплексного, вдумчивого процесса найма — не как ярлык, который заменяет суждение.