評価設計

How to Design Situational Judgment Tests: A Step-by-Step Process

ClarityHire Team(Editorial)2026-05-0916 min read

独自のSJTを設計する理由

既成の状況判断テストは一般的なものです。彼らは真空での判断を測定し、あなたのコンテキスト内での判断を測定していません。良いSJTはあなたのロールが実際に直面する特定のジレンマに根ざしています。あなたの企業の「曖昧さの処理」バージョンで優れた候補者は、一般的なSJTをかみ砕く同じ人ではないかもしれません。

独自に構築することは最初に作業が必要です。それは直ちに報酬を得ます：あなたのビジネスに重要な判断のディメンションをサーフェース、あなたの評価はあなた自身の採用マネージャーのためのトレーニングツールになります。

このガイドはゼロから状況判断テストを設計するプロセスについて説明します。

ステップ1：ジョブ分析と重大インシデント

トップパフォーマーに質問することから始めます：過去6ヶ月で下した最も難しい判断呼び出しは何ですか？これは、従来の採用ルーブリックテンプレートで使用する抽象的なジョブの説明ではなく、根拠のある研究作業です。

組織から8～12の現実的なジレンマをドキュメント化：

相反するステークホルダーニーズを持つ顧客エスカレーション
2つの正当な要求の間の優先度の競合
明確なルールがない倫理またはコンプライアンスの質問
トレードオフを強制するリソース制約
不完全な情報にもかかわらず決定が必要な曖昧さ
「プロセスに従う」ことが顧客価値と矛盾する状況
委任または委任失敗
誰かが発見して所有する必要があった間違い

これらを物語として記録します。誰が関与していたのか？制約は何だったか？何が難しかったのか？あなたの最高のパフォーマーはどのようにそれを考えましたか？

これらはあなたのジレンマシナリオになります。あなたは仮説ではなく、現実の経験から借用しています。

ステップ2：応答オプションの開発

各ジレンマについて、5～6の妥当な応答オプションをブレインストーミング。

トリック：すべてのオプションは誰かに対して防御可能であるべきです。あなたは1つの正解を探していません。あなたは「私たちのコンテキストにとって最も効果的」から「より効果的でない」へのスペクトラムを探しています。これはSJTを人格テストから区別するものです—「タイプ」はなく、判断のみです。

これらのレンズを使用してオプションを生成：

リスク許容度： 直ちにエスカレーション対最初に調査
スピード対品質： 迅速に発送対磨きを確保
データ対直感： 情報を集める対経験に基づいて決定
プロセス対実用性： 文書化されたパスに従う対結果のためにルールを曲げる
個人対チーム： 問題を所有する対ステークホルダーを関与させる
短期対長期： 今日を解決する対システム的な修正に投資

ソフトウェアエンジニアのインシデント対応例では、オプションは「直ちにマネージャーにページする」から「最初に孤立して調査」まで及びました。どちらも重大度と文脈に応じて防御可能です。

各オプションが含まれている理由をドキュメント化。これはどのような判断パターンを明らかにしますか？

ステップ3：トップパフォーマーとオプションをランク

オプション自身をランク付けしないでください。上位3人のパフォーマーに、独立して、あなたのコンテキストで各オプションを最も効果的から最も効果的でないにランク付けするよう依頼します。

ランキングを集める。合意を探す：

強い合意（すべての3つがオプションを最初などでランク付け）：これはあなたの組織が価値を置くものを明らかにします。
不同意： これは興味深い。シナリオが曖昧である可能性（良い—それはそうです）、または組織内の亜文化を明らかにする可能性があります（また興味深い）。

例：

パフォーマー A: B > D > A > C > E
パフォーマー B: B > A > D > C > E
パフォーマー C: D > B > A > C > E

トップ2でのBに強い合意。Eに対する明確な合意。AとDの間でいくつかの議論。

これはあなたの「マスターランキング」です。そのシナリオのための良い判断の組織の定義を反映します。

ステップ4：評価の指示を起案

候補者はあなたが理解する方法でコンテキストを理解しません。以下を含む1段落のセットアップを書く：

ロール（例：「待機中のシニアエンジニアです」）
直ちに制約（例：「午前2時で本番アラートが発火」）
決定が難しい理由（例：「この問題はユーザーの小さなサブセットに影響していますが、すぐに原因を特定できません」）
候補者が何をすべきか（例：「これらの応答オプションを最も効果的から最も効果的でないへランク付けします」）

セットアップを2～3文に保つ。多すぎるコンテキストと候補者は過度に考える。少なすぎると彼らは迷子になります。

ステップ5：最近の採用でパイロット

評価を採用で使用する前に、3～5人の最近の採用または内部転送に与える。彼らはあなたのコンテキストを理解していますが、ロール移行に充分に近く、質問について熱心に考えています。

マスターランキングに対して応答をスコアリング：

彼らのランキングはあなたのトップパフォーマーとどのくらい一貫しているか？
彼らはいくつかのシナリオを誤解しましたか？
いくつかのオプションは混乱していたか？
質問は実際に異なる判断パターンを明らかにしているのか、それともすべてが同じをランク付けするか？

このテストに失敗した質問を改訂。すべてが同じオプション（またはランダムに分割）を選択する質問は何も測定していません。

ステップ6：採点基準を設定

事前にスコアをどのように使用するかを決定：

最も効果的（MD）採点： 候補者は、彼らのトップの選択肢が専門家のランキングと一致する場合のみポイントを稼ぐ。シンプル、バイナリ、主観性なし。
距離採点： 候補者は、彼らのランキングが専門家のランキングにどのくらい近いかに基づいてポイントを稼ぐ。より詳細、部分的なアライメントに報酬。
パターンマッチング： 正確なランキングではなく、彼らの選択の形に基づいてスコア（例：「エスカレーション優先度」または「行動へのバイアス」）。

最も効果的な採点は最も防御可能で適用が最も簡単です。「候補者の最初の選択肢は専門家の合意と一致しましたか？」はいまたはいいえ。明確です。

距離採点については、候補者ランキングと専門家ランキング間の絶対差の合計を計算。低い方が良いです。

閾値を決定：ランキングされた質問の70%が正しいのに十分なパス？それとも85%？これはあなたのロール要件を反映すべきです—安全性が重要なロールは、創造的なロールより高い一貫性を要求するかもしれません。

ステップ7：評価を検証

10～15の採用後、比較：

パフォーマンス相関： SJTでスコアが高い候補者はロールでより良く実行しますか（マネージャー評価、パフォーマンスレビュー、または保有期間で測定）？
逆影響： いくつかのデモグラフィックグループが著しく低いスコアを得ていますか？その場合、バイアスまたは文化的特異性のシナリオを確認。
予測性： SJTは強力なパフォーマーと弱いパフォーマーを区別できますか？

評価がパフォーマンスと相関しない場合、重要なものを測定していません。反復。

採用ルーブリックの規律を使用：採点基準をドキュメント化し、スケーリングで評価を使用する前にチーム全体でいくつかの評価を確認。校準はドリフトを防止。また、構造化面接質問を層状化して、彼らのSJT選択の背後にある例を調査。

避けるべき一般的な落とし穴

シナリオが単純すぎる。 「本番で不具合を見つけます。あなたがすること：A）報告、B）修正。」すべてが同じ答えを選択。制約を追加して、シナリオをより難しくしましょう。

応答オプションが品質で等距離ではない。 1つのオプションが明らかに正しい場合、質問は何もテストしません。すべてのオプションが少なくともいくつかのコンテキストで防御可能であることを確認。

シナリオが1人に非常に特定的である。 「あなたのボスがXをします。これはあなたの前の企業の文化を思い出させます。あなたはどう応答しますか？」これは判断ではなく、性格を測定しています。

ランキング方法は明確ではない。 候補者は「最も効果的」が「最も倫理的」または「最も安全」ではなく「このコンテキストであなたの組織のための最良」を意味することを理解する必要があります。彼らに明確に伝える。

あなたが尋ねる質問が多すぎる。 10問のSJTは15～20分を取り、充分なシグナルを提供。50問のSJTは1時間を取り、候補者を疲弊させながら精度を追加しません。

評価を公正にする

状況判断テストは、シナリオが文化的仮定を反映するか、特定の業界または地域の知識が必要な場合、バイアスを導入できます。

シナリオを確認：

言語アクセス性： イディオムなし、文化的参考なし、インサイダー知識が必要な専門用語なし
ステークス間のエクイティ： すべての候補者が説明されたジレンマを経験しているのか、それともいくつかの候補者が特権から明白な利益を持っているのか？
表現： シナリオは現在の構成だけでなく、多様なチームとロールを反映していますか？

複雑なシナリオから逃げないでください。複雑さが文化的翻訳ではなく判断呼び出し自体にあることを確認。

実装への移行

SJTが設計されてパイロットされたら、採用ワークフロー内に実装。一般的な配置：

レジュメスクリーン後。 行動的または技術的ラウンドの前に判断フィットのフィルタリングへの初期評価。
面接前。 目的的、ランキングされた評価で面接を補足。
面接中。 採点評価ではなく、グループディスカッション演習として1つのシナリオを使用。

ほとんどの採用チームは、レジュメスクリーン後とインタビュー前にSJTを使用し、面接時間を消費することなく判断のためのスクリーニングの効率的なレバーとして。

状況判断テスト結果の解釈では、スコアを面接コンテキストと組み合わせる。強いSJT結果+弱い面接はシグナルが何か間違っている（候補者は理論化できるが実行できない）。弱いSJT結果+強い面接は、評価が面接で重要なものを測定していないかもしれない。

研究によると、有効で公正なプロセスを通じて構築されたよく設計されたSJTは、多くの代替案より逆影響が低い。

ClarityHireの評価プラットフォームは、組み込みの採点、レポーティング、候補者体験ツールでカスタムSJT設計をサポート。スプレッドシートで設計し、手動でグレード付けすることもできます—設計の規律がツールより重要です。

situational-judgmentSJTassessment designjob analysis