Interpreting Situational Judgment Test Results: Scores, Patterns, and What to Do With Them
文脈なしのスコアはノイズ
SJTスコアなし、スコアは意味がありません。候補者は72%をスコアします。それは強いですか?平均?弱い?あなたは知りません。
文脈は以下に依存します:
1.スコアリング方法論(最も効果的な対距離ベース) 2. 比較グループ(内部ベンチマーク対外部規範) 3. 評価の役職特異性(ジェネリック対カスタマイズ) 4. マスターランキング(あなたが「正しい」と定義したもの)
インシデント対応SJTで「最初に単独で調査する」をランク付けする候補者は、自律性を重視する会社で100%をスコアし、エスカレーション規律を重視する会社で40%をスコアするかもしれません。どちらのスコアも間違っていません。両方とも会社が何を価値がるかを測定しています。
このガイドはSJT結果を正しく解釈して使用できるように、解釈の結果を通じて説明しています。
スコアリング方法論:最も効果的な対距離ベース
最も効果的(MD)スコアリング
候補者は、最上位ランク付けされたオプションが専門家マスターランキング最初の選択肢と一致する場合にのみポイントをスコアします。
例:
- 専門家ランキング:E > D > A > C > B
- 候補者ランキング:E > D > C > A > B
- スコア:1ポイント(オプションEで一致)
- 結果:この質問で1/5 = 20%
利点:
- バイナリ、防御可能。彼らは最も効果的なオプションを選んだか、彼らはしませんでした。
- 採用基準を一致させます:「彼らは我々が行う選択をしますか?」
- スコアリングの主観性なし。
- 候補者とステークホルダーに簡単に説明できます。
欠点:
- 部分的なクレジットを罰します。Eが最初に順位付けされるが、D2番目に順位付けされた候補者(E > D > ...が必要)はクレジットをゼロゲットします。
- 全くまたは何もない可能性は、エッジケースで厳しく感じることができます。
**MDスコアリングを使用する場合:**あなたの判断基準と一貫して調整されるマネージャーまたはリーダーを採用したい。逸脱の許容度は低いです。評価が明確に区別することをお望みです。
距離ベースのスコアリング
候補者の完全なランキングは、距離メトリック(例、位置間の絶対差の合計)を使用して専門家ランキングと比較されます。
例:
- 専門家ランキング:E(1) > D(2) > A(3) > C(4) > B(5)
- 候補者ランキング:E(1) > D(2) > C(3) > A(4) > B(5)
- 距離:|1-1| + |2-2| + |4-3| + |3-4| + |5-5| = 0 + 0 + 1 + 1 + 0 = 2
- 正規化スコア(低距離=高スコア):10/10または5/5最大可能距離に応じて
利点:
- 部分的な配置を報酬。「ほぼ正しいが、1つのオプションが反転している」候補者はクレジットを取得します。
- より粒状。推論でニュアンスをキャプチャします。
- 2つのオプションが品質で非常に接近しているエッジケースを許す。
欠点:
- 計算と説明が複雑です。
- 「距離」の明確な定義が必要です(Kendall tau、Spearman相関、その他のメトリック)。
- トップの選択肢の小さな違いは、重み付け方法に応じてスコアリングの影響が大きい可能性があります。
**距離ベースのスコアリングを使用する場合:**個人的な貢献者を採用したい場所で、合理的な不一致は価値があります。トップの選択肢だけではなく、判断の形状を見たいのです。アプローチの多様性に対する高い許容度があります。
候補者を比較する:内部ベンチマーク対外部規範
内部ベンチマーク(推奨)
SJTを役職の現在のトップパフォーマーに提供してください。平均スコアを文書化します。それを候補者の比較ポイントとして使用します。
例:
- 5人の最高のエンジニアは、カスタムエンジニアリングインシデント対応SJTで平均78%をスコアします。
- 候補者A:82%をスコアします。
- 候補者B:71%をスコアします。
解釈:候補者Aはトップパフォーマーとよく配置されています。候補者Bは偏差しています - 異なる判断パターン(良いか悪いかもしれません)があるか、彼らはあなたのコンテキストをまだ理解していません。
内部ベンチマークがなぜ機能するか:
- 彼らは一般的な定義ではなく、あなたの定義の良い判断の配置を測定します。
- 「これらの次元のトップパフォーマーのように考える人を採用しています」と言うことができます。
- サブカルチャーを表面化します(トップパフォーマーが互いに同意しない場合、それも興味深いデータです)。
内部ベンチマークを作成する方法:
- 2年以上あなたと一緒にいた5~10の高パフォーマーを選択(自分を証明するのに十分)。
- SJTを提供してください(評価が新しい場合、彼らは遡及的に実行できます:「これをどのようにランク付けしますか?」)。
- 平均スコアを計算します。
- 個々の変動性を計算します(彼らが同意するか、論争があるか)。
高い内部の変動性は有用なデータです:「トップパフォーマーはこれについて異なる思考をします。」これは以下を意味するかもしれません:
- シナリオは本当に曖昧です(良い - そうあるべき)
- 高パフォーマー内にはさまざまなサブカルチャーがあります(必ずしも悪いわけではなく、興味深い)
- マスターランキングは代表的ではありません(それを再検討してください)
外部規範(注意して使用)
いくつかのコマーシャルSJT販売者(SHL、CEB Talent、その他)は公開された規範を持っています:「ソフトウェアエンジニア役の場合、50パーセンタイルスコアは64%です。」その分布に対して候補者を比較できます。
これがなぜ難しいか:
- 外部規範は、評価がジェネリックまたは業界標準であることを想定しています。
- カスタム設計のSJTは、公開された規範を持ちません。
- 外部SJTで80パーセンタイルをスコアする候補者は、「良い判断」の定義が異なる場合、内部ベンチマークで40パーセンタイルをスコアするかもしれません。
外部規範を使用してください:
- 評価の健全性チェック(全員が90パーセンタイルを超えてスコアした場合、評価はおそらく簡単すぎます)
- 赤旗検出(候補者が20パーセンタイル以下の場合、何かがオフです)
- 透明性(候補者に「この役職について、平均スコアは...」と言うことができます)
外部規範を単独で使用しないでください。可能な場合は、常に内部ベンチマークと組み合わせてください。
パターンの解釈、スコアではなく
2人の候補者は両方とも76%をスコアします。しかし、彼らの選択のパターンが重要です。
候補者Aの最初の各シナリオでのランキング:
- インシデント対応:E(専門家と一致)
- 顧客紛争:D(専門家と一致)
- チーム摩擦:A(専門家ランク付けB)
- 委任:B(専門家ランク付けB)
- 優先順位付け:C(専門家ランク付けD)
パターン:ほとんどがトップパフォーマーと一致しています。人々に焦点を当てたシナリオで偏差(チーム摩擦、優先順位付け)。仮説:強い技術判断、人々の判断が弱い。
候補者Bの最初のランキング:
- インシデント対応:B(専門家E)
- 顧客紛争:E(専門家D)
- チーム摩擦:D(専門家B)
- 委任:A(専門家B)
- 優先順位付け:D(専門家D)
パターン:全体的にはかなり一貫性がありません。明確なパターンなし。仮説:あなたのコンテキストを理解していないか、根本的に異なる判断哲学を持っています。
両方は76%をスコアしています。しかし、候補者Aは、コーチングできる弱さを明らかにします(人々の判断)。候補者Bは、理解の欠如または修正するのが難しい不足していることを明かしています。
ドメイン別のパターンを追跡:
- 技術判断(インシデント対応、デバッグ、アーキテクチャ)
- 人々の判断(紛争、委任、フィードバック)
- 実行判断(優先順位付け、リソース配分、トレードオフ)
- リスク管理(エスカレーション、スローダウンするとき)
この粒状は「パターンに基づいて役職Yではなく、役職Xのために彼らを採用するでしょう」と言うことができます。
SJTスコア+インタビューの一貫性
強いSJTスコアは、候補者が理論的にあなたの判断基準と配置されていることを意味します。インタビューは、その判断を実行できることを検証します。採用ルーブリックを使用して、すべての面接官の一貫性を確保してください。
**強いSJT+強いインタビュー:**判断に配置され、例を説明できます。高信頼採用。
**強いSJT+弱いインタビュー:**彼らは抽象的に「正しい」判断を「知っている」が、例を裏付けることはできず、例は稽古のように感じます。赤旗。プローブ:「調査ではなく、早期にエスカレートすることを選択した時間について教えてください。状況は何でしたか?」
**弱いSJT+強いインタビュー:**彼らはテストで上手くスコアしていませんが、彼らの過去の決定はあなたの判断基準と配置します。これはしばしば以下を意味します:彼らはSJTであなたのコンテキストを理解していませんでした(彼らはその業界に新しい)またはあなたの評価は何を思っているのかを測定していません。彼らを自動的にフィルタリングしないでください。不一致が存在する理由を理解してください。
**弱いSJT+弱いインタビュー:**一貫したシグナル。判断は配置されていないか、強いではありません。フィットの可能性が低い。
SJTスコアがパフォーマンスを予測しない場合
SJTは判断測定に良いですが、すべてを予測しません。彼らは予測します:
- 曖昧さの下での決定品質
- 問題解決アプローチ
- エスカレーション規律
- 人々の判断(管理役について)
彼らは予測しません:
- 実行速度(候補者は素晴らしい決定をするかもしれませんが、行動するのは遅い)
- 挫折を通じた永続性(彼らは正しい呼び出しを知っているかもしれませんが、困難になったときに放棄する)
- 学習速度(彼らはあなたの判断基準を理解するかもしれませんが、内部化する時間が必要です)
- コミュニケーション能力(彼らは上手く考えるかもしれませんが、説明するのに苦労する)
- 技術スキル(技術的な深さが判断と並んで重要な役について)
SJTのみを使用する場合、これらの寸法を見落としています。ペアリングそれ:
- テストをスクラッチから構築するテクニカルスキル
- 行動面接過去の実行と復元力のため
- ルーブリック付き構造化面接コミュニケーションと深さのため
SJT解釈での赤旗
赤旗1:全員同じをスコアします。
すべての候補者が82%をスコアし、またはすべてが45%をスコアする場合、評価は区別されていません。可能性が高い原因:
- 評価が簡単すぎるか難しすぎるか
- マスターランキングは代表的ではありません
- 候補者がシナリオを理解していません
評価を修正します。3~5人でパイロットして、反復します。
赤旗2:スコア分散はシニア度との関連していません。
ジュニア候補者が上級採用よりも高くスコアした場合、何かが悪い。いずれかの場合:
- 評価は、あなたが考えるもの以外のものを測定しています
- スコアリングは一貫性がありません
- 間違ったベンチマークと比較しています
高およびスコア低い者を聞いて調査:「そのオプションを最初にランク付けした理由を教えてください。」彼らの説明はあなたの期待と一致していますか?
赤旗3:人口統計グループは大幅に異なるスコア。
女性が男性よりも10+ポイント低くスコアした場合、または1つの民族グループが体系的に低くスコアした場合、評価にはバイアスがある可能性があります。原因:
- シナリオは文化的仮定を反映します
- 言語は等しくアクセス可能ではありません
- シナリオは特定の種類の経験を特権します
評価設計の公正性についてのバイアスと多様なグループでテストを確認します。
候補者にスコアを伝える
スコアが何を意味するかについて透明性があります。「72%をスコアしました」と言わないでください。代わりに:
「状況判断評価で、5つのシナリオのうち3つで、トップパフォーマーと一貫性を持つトップの選択肢をランク付けしました。[ドメイン]についての判断はあなたの基準とよく配置されました。[ドメイン]へのあなたのアプローチは規範から異なります - これは強み(新鮮な視点)またはあなたの文化への適応が必要である可能性があります。」
これはスコアを判断パターンではなく、合格/不合格グレードとして再フレーミングします。これは以下を示唆しています:
- 何か具体的を測定しています
- 文脈を理解しています
- 推論を学ぶことに開かれています
採用決定でSJTスコアを使用する
SJTスコアは多くのシグナルの1つです。次のようにそれらを使用してください:
- **スクリーニングフィルタ:**強いSJT+履歴書適合前に進みます。弱いSJTしかし興味深い背景は調査を受けます。
- **インタビュープローブ:**評価を行動質問の飛び台として使用します。「エスカレーションシナリオでXが最初にランク付けしたことに気付きました。エスカレートした時間について教えてください。」
- **タイブレーカー:**同様のインタビューを持つ2人の候補者?より強いSJT配置のものはあなたの文化により適応する可能性があります。
- **オンボーディングデータ:**雇用された候補者について、オンボーディングでSJTパターンを追跡して、メンターシップフォーカス領域を特定します。
ボーダーラインの候補者のためのノックアウトフィルタとしてSJTを使用しないでください。文脈として使用してください。
包括的な評価戦略については、コーディング評価、構造化面接、リファレンスチェック層を使用します。各フィットの異なる寸法を測定します。
ClarityHireの評価プラットフォームには、自動スコアリング、内部トップパフォーマーに対するベンチマーク、およびパターン分析が含まれています。解釈を簡素化します。