Criteria Corp vs SHL: исследование валидности и интерпретация результатов
Что на самом деле означает "валидизированный"
Когда поставщик когнитивного теста говорит "валидизированный", они имеют в виду один или несколько из следующих типов валидности:
- Конструктная валидность. Тест измеряет то, что он утверждает (общие умственные способности, числовое мышление и т. д.).
- Критериальная валидность. Баллы теста коррелируют с показателями производительности на работе, обычно оценки руководителей или данные о производительности.
- Надёжность. Повторные применения теста дают схожие результаты; альтернативные формы эквивалентны.
- Справедливость. Распределение баллов и предсказательная точность не различаются несправедливо между защищёнными демографическими группами.
Оба — Criteria Corp и SHL — публикуют технические руководства, охватывающие все четыре типа. Руководства полезны, но их легко неправильно интерпретировать. Этот пост разбирает, что действительно показывают исследования каждого поставщика и как оценивать заявления о валидности поставщиков в целом — см. также нашу более подробную сводку исследований предсказательной валидности.
CCAT от Criteria Corp
Основное утверждение. CCAT коррелирует с производительностью на работе при коэффициентах валидности в диапазоне 0,40–0,65 во всех видах работ, что соответствует общим когнитивным тестам из более широкой метаанализа.
Какова база исследований. Criteria публикует техническое руководство, охватывающее несколько сотен исследований валидации, включая локальные исследования валидации, проведённые в организациях клиентов. Методология стандартная: собрать оценки CCAT от выборки работников, собрать рейтинги производительности руководителей, рассчитать корреляцию, скорректировать ограничение диапазона и ошибку измерения.
Данные о негативном влиянии. CCAT демонстрирует стандартную модель когнитивного теста — скромные различия в средних баллах между расовыми/этническими группами в США, согласованные с более широкой литературой по когнитивному тестированию. Criteria открыто публикует эти различия в техническом руководстве. Действует правило 4/5; команды найма, использующие CCAT как строгий порог отсечения, должны провести собственный анализ неблагоприятного воздействия на основе своего коэффициента отбора.
Сильные стороны. Долгая история публикаций. Адекватные размеры выборки в большинстве исследований валидации. Прозрачная методология. Числа валидности заслуживают доверия на метаналитическом уровне.
Слабые места для внимательного чтения. Многие опубликованные исследования валидации используют "текущий сотрудник" вместо "предсказывающий" дизайн — они коррелируют текущие оценки теста работников с текущей производительностью, а не тестируют претендентов и наблюдают за ними со временем. Дизайн для текущих сотрудников обычно дает более высокие коэффициенты, чем был бы предсказывающий дизайн. Перед цитированием каких-либо чисел прочитайте раздел методологии конкретного исследования.
SHL Verify Interactive G+
Основное утверждение. Verify Interactive G+ измеряет общие умственные способности с адаптивной точностью и дает коэффициенты валидности в том же диапазоне 0,50–0,65 в отношении производительности на работе, с дополнительным утверждением, что адаптивное тестирование снижает ошибку измерения в сравнении с фиксированными формами.
Какова база исследований. SHL имеет обширную глобальную базу данных валидации — сотни исследований, многие с большими выборками, развёрнуты по десяткам стран. Техническое руководство плотное и охватывает конструктную валидность (факторная структура оценки G+), критериальную валидность (большие метаналитические выборки) и кросс-культурную справедливость.
Данные о негативном влиянии. SHL также публикует данные о групповых различиях. Как и CCAT, Verify демонстрирует стандартный паттерн когнитивного теста. Работа SHL по локализации — элементы, адаптированные и переоцененные для разных стран — снижает некоторые источники кросс-культурной несправедливости, но основные различия в способностях остаются согласованными с более широким исследованием.
Сильные стороны. Более крупная и разнообразная база данных валидации, чем у Criteria, особенно вне США. Методология адаптивного тестирования психометрически более эффективна. Сильный IRT-анализ элементов.
Слабые места для внимательного чтения. Самые крупные исследования валидации SHL сосредоточены в конкретных отраслях (финансовые услуги, консалтинг, нефть и газ). Обобщение на вашу конкретную семейство ролей заслуживает локального исследования валидации, которое SHL будет продавать вам. Некоторые опубликованные коэффициенты поступают из конкурентных, а не предсказывающих дизайнов, такое же предостережение, как Criteria.
Сравнение двух на валидность, лоб в лоб
Оба поставщика попадают примерно в одну и ту же полосу валидности — 0,50 скорректировано, где-то в диапазоне 0,30 некорректировано — что согласуется с более широким исследованием когнитивных тестов способностей. Нет опубликованного прямого сравнительного исследования, показывающего, что один явно более предсказателен для общего использования.
Где они действительно различаются:
- Ошибка администрирования теста. Адаптивный дизайн SHL Verify снижает ошибку измерения на уровне теста, особенно в верхней части диапазона способностей. Фиксированная форма CCAT более чувствительна к эффектам угадывания и нехватки времени.
- Ограничение диапазона на практике. Если вы тестируете только претендентов, прошедших отсев по резюме, оба теста будут показывать более низкие наблюдаемые коэффициенты, чем метаанализа, потому что пул претендентов ограничен диапазоном. Это свойство любого теста, а не различие поставщика.
- Кросс-культурная валидность. SHL имеет более строгую локализацию для найма вне США. Для найма только в США разница меньше.
Валидность необходима, но недостаточна
Высокий коэффициент валидности говорит вам, что тест предсказывает производительность. Это не говорит вам:
- Является ли тест наиболее значимой оценкой для вашей конкретной роли
- Стоит ли затраты маржинальное улучшение по сравнению с более простой альтернативой
- Будут ли менеджеры по найму фактически использовать оценку или переопределять её интуицией
- Создаёт ли тест проблемы с опытом претендентов, которые отговаривают хороших претендентов
Исследование методов найма последовательно показывает, что комбинирование когнитивных способностей с одним другим валидным методом (рабочий образец, структурированное интервью) даёт значительно более высокую комбинированную валидность, чем только когнитивные способности. Коэффициенты валидности примерно складываются в комбинированный R-квадрат до пределов основных конструктов.
На практике это означает: не выбирайте CCAT или SHL Verify как единственный фильтр найма. Выберите один из них как когнитивный компонент, затем комбинируйте со структурированным поведенческим интервью и рабочим образцом. См. нашу высоковалидную цепочку найма.
Где ClarityHire подходит
ClarityHire не поставляет тест когнитивных способностей. Мы сосредоточены на стороне рабочего образца: кодирующие оценки, живое кодирование, структурированные поведенческие карточки оценивания и проверка целостности.
Сочетание CCAT или SHL Verify (когнитивные способности) с ClarityHire (рабочий образец + структурированное интервью + проверка целостности) — это конфигурация, которую база исследований наиболее сильно поддерживает для найма работников знаний. Коэффициенты валидности комбинированной цепочки достигают 0,60+ в метаналитической литературе, материально выше, чем любой одиночный метод.
Как оценивать любые заявления поставщика о валидности
Независимо от того, смотрите ли вы на Criteria, SHL или любого другого поставщика, спросите:
- Какая выборка для коэффициента? Дизайн конкурирующий vs предсказывающий имеет значение. Данные перед трудоустройством — это золотой стандарт.
- Какие методы коррекции были применены? Скорректированные vs некорректированные коэффициенты могут различаться на 0,10–0,20. Оба законны; просто знайте, какой вы читаете.
- Какое негативное воздействие в вашем контексте? Опубликованные поставщиком числа — это агрегаты. Проведите собственный анализ вашего коэффициента отбора.
- Какова история локальной валидации? Общая валидность — сильный дефолт, но пользовательское локальное исследование — единственное, что доказывает, что тест работает в вашей обстановке.
Оба — Criteria и SHL — будут поддерживать специфичное для клиента исследование валидации. SHL более разработано (и дороже); Criteria легче. Любое стоит сделать перед масштабированием на организацию.
См. также: наше сравнение возможностей и наш обзор цены и ROI.