Найм и рекрутинг

Оценка Project Manager: Валидность, справедливость и что действительно прогнозирует производительность

ClarityHire Team(Editorial)8 min read

Вопрос, который лидеры найма должны спросить

Вы построили PM оценку. Сценарий проблема, приоритизация, оценка риска, поведенческое интервью. Кандидаты, которые скорят 4+, исполняют хорошо на работе. Кандидаты, которые скорят 2,5 или ниже, fail. Но вы это верифицировали? И справедлива ли оценка?

Этот пост проходит через что валидность означает для PM оценок, как мерять это и что справедливость выглядит как на практике.

Что валидность означает

Оценка валидна, если она прогнозирует результат работы, о котором вы заботитесь. Для PM найма, это: «Этот человек доставляет проекты вовремя, управляет риском хорошо и строит коллектив доверие?»

Есть три типа:

1. Прогнозирующая валидность

Прогнозирует ли балл оценки будущую производительность работы?

Как мерять это:

  • Наймите 10+ PMs, используя вашу оценку.
  • После 6 месяцев, рейтингуйте их на производительность (360 review, feedback лидера, метрики доставки проекта).
  • Сравните балл оценки с рейтингом производительности.
  • Если высокие скоры исполняют хорошо и низкие скоры страдают, вы имеете прогнозирующую валидность.

Что хорошо выглядит:

  • Корреляция 0,6+ между баллом оценки и рейтингом производительности (сильно).
  • Корреляция 0,4-0,6 (умеренно, всё ещё полезно).
  • Корреляция ниже 0,3 (низко, оценка не прогнозирующая).

Реальная точка данных: Коллективы, используя сценарий-основанные PM оценки, типично видят корреляцию 0,5-0,7. Коллективы, используя неструктурированные поведенческие интервью, видят 0,2-0,3. Разница реальна.

2. Construct валидность

Действительно ли оценка меряет то, что она претендует мерять?

Для PM оценки, вы претендуете мерять:

  • Решение-делание под ограничением
  • Приоритизация суждение
  • Риск осознание
  • Влияние заинтересованных лиц

Как верифицировать: Кандидаты, которые скорят высоко на «решение-делание», действительно ли демонстрируют решение-делание на работе? Или они просто хороши в тесте?

Красный флаг: Кандидат скорит 4,5 на сценарий (решение-делание), но на работе имеет тенденцию hedge и искать консенсус. Оценка не мерила что имеет значение.

Как предотвратить это: После найма, имейте лидера найма рейтингуйте кандидата на каждом из четырёх измерений независимо (на 3 месяца и 6 месяцев). Сравните их рейтинг с баллом оценки. Если есть большой gap, ваша оценка меряет не то что имеет значение.

3. Content валидность

Содержит ли оценка реалистичные проблемы, которые кандидаты действительно столкнутся?

Примеры высокого content валидности:

  • «Клиент угрожает уйти, если вы не доставляете к октябрю 1» (реальная PM проблема).
  • «Ранжируйте эти функции дан эти ограничения» (реальная PM проблема).
  • «Три коллектива в параллели, но один зависимость; выявите риски» (реальная PM проблема).

Примеры низкого content валидности:

  • «Напишите 10-страничный план проекта с нуля» (PMs не делают это в день-к-дню work).
  • «Объясните Agile vs. Waterfall» (тесты знание, не суждение).
  • «Расскажите о времени вы управляли коллективом» (поведенческое, не work-sample).

Как мерять это: Покажите вашу оценку трём PMs текущих в роли. Спросите: «Эти проблемы выглядят как то, что вы действительно столкаетесь?» Если они говорят нет, вы тестируете что-то другое, чем производительность работы.

Валидность не автоматически там

Много организаций предполагают: «Если оценка выглядит хорошо нам, она должна быть прогнозирующая». Не правда.

Частые паттерны оценки, которые выглядят строгие, но не прогнозирующие:

Паттерн 1: Детальное Gantt назначение диаграммы. Выглядит: профессиональный, организованный, технический. Действительно меряет: способность использовать программное обеспечение управления проектом, не PM суждение. Прогнозирующая валидность: низко (0,2-0,3).

Паттерн 2: Неструктурированное поведенческое интервью. Выглядит: тщательный, узнаёт личность. Действительно меряет: интервью уверенность и storytelling навык. Прогнозирующая валидность: низко (0,2-0,3).

Паттерн 3: Case study без live debrief. Выглядит: кандидаты думают глубоко о проблеме. Действительно меряет: консалтинг-стиль письмо и анализ. Прогнозирующая валидность: средне (0,4-0,5).

Паттерн 4: Сценарий проблема + live приоритизация + оценка риска. Выглядит: строгий и дорогой. Действительно меряет: решение-делание, суждение и системное мышление. Прогнозирующая валидность: высоко (0,6-0,7).

Как верифицировать валидность вашей собственной оценки

Шаг 1: Определите что «хорошая производительность» означает на работе

Перед вы даже проверяете, если оценка прогнозирует это, определите результат:

  • Timeline: PMs доставляют milestones на committed дата, или предоставляют раннее предупреждение.
  • Объём: PMs доставляют объём, на которые они обязались, или явно rescope с agreement заинтересованных лиц.
  • Риск: PMs выхватывают риски зависимости proactively, не после они взрывают.
  • Коллектив: PMs поддерживают коллектив engagement и psychological безопасность через изменение.

Делайте эти поведенческие, не туманные. «Доставляет вовремя» поведенческое. «Это хороший лидер» туманное.

Шаг 2: Наймите используя вашу оценку и отслеживайте результаты

Наймите 10-15 PMs в течение 6 месяцев. Отслеживайте их производительность на 3, 6 и 12 месяцев, используя поведенческое определение выше.

Как мерять:

  • 360 review (лидер, skip-level, peer) якоря к четырём поведениям.
  • Метрики доставки проекта (вовремя доставки rate, объём изменения, retention коллектива).
  • Skip-level коммуникации: «Как PM коммуникация? Вы получаете удивлены риском?»

Шаг 3: Сравните баллы оценки с результатами

Создайте простую таблицу:

КандидатБалл оценкиРейтинг производительности работы (на 6 мес)Match?
Alice4,24,1Да
Bob3,53,4Да
Carol3,02,8Да
Dan4,83,2Нет (переpredictor)
Eva2,82,1Да

Если большинство рядов match, вы имеете валидность. Если несколько рядов показывают mismatches, ваша оценка не прогнозирующая.

Шаг 4: Исправьте mismatches

Если высокий-скорер (4,5 на оценке) исполняет плохо (2,5 на работе):

  • Они могут получили помощь на сценарий.
  • Оценка может мерять что-то другое, чем производительность работы (например, хороши на тестах, но не коммуникации заинтересованных лиц).
  • Они могут приземлиться в роли или окружении, которые не подходит им (нанят как PM для роли Scrum Master).

Если низкий-скорер (2,8 на оценке) исполняет хорошо (4,0 на работе):

  • Ваша оценка может быть слишком жёсткая, или меряет не то.
  • Они могут передались от другой роли и учили на работе.

В любом случае, исследуйте и отрегулируйте вашу оценку.

Справедливость: Зависит ли оценка от предвзятости?

Валидность о прогнозе. Справедливость об равных возможностях.

Оценка может быть валидная (прогнозирует производительность), но несправедливая (предвзята против определённых групп). Пример: сценарий, писаный в деловом жаргоне, знаком Ivy League кандидатам, но не к community college кандидатам. Обе группы могут PM хорошо, но одна группа фильтруется несправедливо.

Частые проблемы справедливости в PM оценках

Проблема 1: Предполагание определённого фона индустрии. Сценарий предполагает знание SaaS метрик. Кандидаты из manufacturing, healthcare или гос-тех disadvantaged. Исправка: Не предполагайте domain знание. Тестируйте PM мышление, не domain факты.

Проблема 2: Timed сценарии, которые преимущество люди без caregiving ответственности. «30-минутный ответ, должен быть к 5pm». Кандидаты жонглирующие childcare или elder care disadvantaged. Исправка: Асинк оценки с гибкими дедлайнами. 24 часа ответить разумно.

Проблема 3: Язык/жаргон барьеры. Сценарий использует определённую PM терминологию (WIP, burn-down и т.д.) без определения это. Не-native English спикеры disadvantaged. Исправка: Предполагайте нет PM фона. Определите термины. Тестируйте мышление, не словарь.

Проблема 4: Live вербальный компонент, который фаворизирует экстровертов. Приоритизация проблема сделана вербально в real time. Интровёрты, которые думают лучше в письме, disadvantaged. Исправка: Предложите письменный или вербальный опцион для приоритизации. Обе валидны.

Проблема 5: Сценарии, которые предполагают определённый culture fit. Сценарий предполагает startup mentality: «Мы agile и доставляем быстро». Кандидаты из risk-averse индустрии видят это как irresponsible и скорят ниже. Исправка: Делайте сценарии индустрия-agnostic. Тестируйте PM мышление, не культурные ценности.

Как аудит для справедливости

После вы запустили вашу оценку на 20+ кандидатов:

  1. Группа кандидатов демографически (если вы отслеживаете: пол, раса, фон образования и т.д.).
  2. Сравните средние баллы оценки по группам.
  3. Если одна группа скорит систематически ниже, исследуйте:
    • Группа действительно ниже-исполняет на работе? (Проверьте против данных актуальной производительности.)
    • Или оценка меряет что-то другое, чем готовность работы? (Спросите ту группу: «Оценка чувствовала справедлива?»)

Что вы ищете: Равные средние баллы по группам, или если есть gap, тот gap должна match рабочий результат gap (не быть больше).

Пример:

  • Группа A скорит 3,8 на оценке, исполняет на 3,7 на работе. ✓ Справедлива.
  • Группа B скорит 3,2 на оценке, исполняет на 3,5 на работе. ✗ Оценка under-predicted; что-то неправильно с оценкой, не группой.

Красные флаги для невалидности или несправедливости

Невалидность:

  • Ваши высокие-скоры (4+) не последовательно исполняют хорошо на работе.
  • Вы не можете артикулировать что оценка меряет (если вы не можете сказать, вы вероятно не знаете).
  • Вы не померяли производительность работы эмпирически (вы просто гадаете).

Несправедливость:

  • Определённые группы скорят систематически ниже, и вы не верифицировали они underperform на работе.
  • Вы используете язык или сценарии, которые предполагают определённый фон или культуру.
  • Кандидаты из non-traditional PM фонов (bootcamp, внутренние продвижения) фильтруются вне на стадии оценки.

Строим валидную и справедливую оценку

Лучшие PM оценки:

  1. Используют work samples (сценарий + приоритизация) тестировать актуальное суждение, не знание.
  2. Индустрия-agnostic или тестируют по индустриям так нет фона предполагается.
  3. Асинк, когда возможно соответствовать разным стилям работы и ответственности.
  4. Определите что успех выглядит как (рубрика) и потом верифицируйте та рубрика прогнозирует производительность работы.
  5. Аудит для справедливости — запустите числа каждые 6-12 месяцев.

Оценка, которая валидна и справедлива, не гарантирует PM будет успех. Но это драматически улучшает ваши шансы.

Как валидировать вашу PM оценку

Если вы используете стандартизированную PM оценку, спросите поставщика: «Какая прогнозирующая валидность эта оценка имеет?» Реальные вендоры запустили исследования. Если они не имеют, это красный флаг.

Если вы построили вашу собственную оценку, запустите простую четыре-шаговую валидацию выше (определите успех, нанять и отслеживать, сравните баллы с результатами, исправьте mismatches). Это берёт 6 месяцев, но окупает себя в точности найма.

управление проектамиоценканаймвалидностьсправедливость

Похожие статьи