評価設計

状況判断テスト（SJT）スコアの解釈方法

ClarityHire Team(Editorial)2026-05-0919 min read

文脈なしのスコアは意味がない

SJTスコアは、文脈がなければ意味がありません。候補者が72%をスコアしたとしましょう。それは高い？平均的？低い？判断できません。

文脈は以下の要因によって異なります：

スコアリング方法論（最も効果的 vs 距離ベース）
比較グループ（内部ベンチマーク vs 外部規範）
評価の職務特異性（汎用 vs カスタマイズ）
基準ランキング（貴社が「正解」として定義したもの）

インシデント対応SJTで「最初に単独で調査する」を最優先する候補者は、自律性を重視する企業では100%、エスカレーション規律を重視する企業では40%をスコアするかもしれません。どちらのスコアも間違っていません。どちらも、その企業が何を価値とするかを測定しているのです。

本ガイドでは、SJT結果を正しく解釈・活用するための方法を説明します。

スコアリング方法論：最も効果的 vs 距離ベース

最も効果的（MD）スコアリング

候補者が獲得ポイントとなるのは、最優先選択肢が専門家の基準ランキング第1位と一致した場合のみです。

例：

専門家ランキング：E > D > A > C > B
候補者ランキング：E > D > C > A > B
スコア：1ポイント（選択肢Eで一致）
結果：この問題で 1/5 = 20%

利点：

明確で説明責任がある。最も効果的な選択肢を選んだか、選ばなかったか、二者択一。
採用基準と合致する：「わが社が判断する通りに判断できるか？」
スコアリングに主観性がない。
候補者とステークホルダーに説明しやすい。

欠点：

部分的な正解にペナルティがある。Eを最優先だがD2番目にランク付けした候補者（E > D > ... が必要）は、ゼロスコアになる。
全か無かで、エッジケースに厳しく感じることがある。

MDスコアリングを使うべき場合： 貴社の判断基準と一貫して合致するマネージャーやリーダーを採用したい場合。逸脱に対する許容度が低い場合。評価で明確に候補者を区別したい場合。

距離ベースのスコアリング

候補者の完全なランキングを、距離指標（例：位置間の絶対差の合計）を使って専門家ランキングと比較します。

例：

専門家ランキング：E(1) > D(2) > A(3) > C(4) > B(5)
候補者ランキング：E(1) > D(2) > C(3) > A(4) > B(5)
距離：|1-1| + |2-2| + |4-3| + |3-4| + |5-5| = 0 + 0 + 1 + 1 + 0 = 2
正規化スコア（距離が小さい=スコアが高い）：最大可能距離に応じて10/10または5/5

利点：

部分的な一致に加点できる。「ほぼ正しいが、1つの選択肢が逆」という候補者も加点される。
より細かく判定できる。推論のニュアンスを捉えられる。
2つの選択肢の品質がほぼ同じというエッジケースに対応しやすい。

欠点：

計算と説明が複雑。
「距離」の定義を明確にする必要がある（Kendall tau、Spearman相関など）。
トップ選択肢のわずかな違いが、重み付けによってスコアに大きく影響する可能性がある。

距離ベースのスコアリングを使うべき場合： 合理的な異論が価値とみなされるような個人貢献者を採用したい場合。トップ選択肢だけでなく、判断パターン全体を見たい場合。アプローチの多様性に高い許容度がある場合。

候補者比較：内部ベンチマーク vs 外部規範

内部ベンチマーク（推奨）

SJTを、その職務に現在いる高パフォーマーに実施します。平均スコアを記録します。これを候補者の比較基準として使用します。

例：

貴社の優秀なエンジニア5名が、カスタムエンジニアリング用インシデント対応SJTで平均78%をスコア。
候補者A：82%
候補者B：71%

解釈：候補者Aは高パフォーマーとよく合致している。候補者Bは乖離している。もしくは異なる判断パターンを持っている（良い場合も悪い場合もある）か、貴社の文脈をまだ理解していない可能性がある。

内部ベンチマークが機能する理由：

一般的な定義ではなく、貴社の「良い判断」の定義との合致を測定する。
「わが社は、これらの領域でトップパフォーマーのように考える人材を採用している」と言える。
組織のサブカルチャーを表面化させる（トップパフォーマー同士で意見が分かれていれば、それも重要な情報）。

内部ベンチマークの作成方法：

2年以上在籍し、実績が確認できた高パフォーマー5～10名を選ぶ。
SJTを実施してもらう（新規評価の場合は遡及的に実施：「このシナリオ、どのようにランク付けしますか？」）。
平均スコアを計算する。
個人差を計算する（意見が一致しているか、議論があるか）。

内部での大きな差は有用な情報です。「わが社のトップパフォーマーはこの点で異なる見方をしている」ということで、以下が示唆されます：

シナリオが本当に曖昧である（それは良いこと。本来そうあるべき）
高パフォーマーの中に異なるサブカルチャーがある（必ずしも悪くはないが、興味深い）
基準ランキングが代表的でない（見直す必要あり）

外部規範（慎重に使用）

大手SJTベンダー（SHL、CEB Talent など）は公開ノルムを持っています。例：「ソフトウェアエンジニア職の50パーセンタイルは64%」。候補者をこの分布と比較できます。

これが難しい理由：

外部規範は、評価が汎用・業界標準であることを前提としている。
カスタム設計のSJTは、公開ノルムがない。
外部SJTで80パーセンタイルをスコアした候補者でも、「良い判断」の定義が異なれば、内部ベンチマークで40パーセンタイルかもしれない。

外部規範を使う場面：

評価の健全性チェック（全員が90パーセンタイル以上なら、評価が簡単すぎる可能性）
赤旗検出（候補者が20パーセンタイル以下なら、何か問題がある）
透明性（候補者に「この職務の平均スコアは...」と伝えられる）

外部規範だけで判断しないでください。可能なら、常に内部ベンチマークと組み合わせてください。

スコアではなく、パターンを解釈する

2人の候補者がともに76%をスコアしました。しかし、選択肢のパターンが重要です。

候補者A - シナリオ別ランキング：

インシデント対応：E優先（専門家と一致）
顧客紛争：D優先（専門家と一致）
チーム摩擦：A優先（専門家はB優先）
権限委譲：B優先（専門家はB優先）
優先順位付け：C優先（専門家はD優先）

パターン：ほぼ高パフォーマーと合致。人的問題（チーム摩擦、優先順位付け）では乖離。仮説：技術的判断は強いが、人間関係の判断は弱い。

候補者B - シナリオ別ランキング：

インシデント対応：B優先（専門家E）
顧客紛争：E優先（専門家D）
チーム摩擦：D優先（専門家B）
権限委譲：A優先（専門家B）
優先順位付け：D優先（専門家D）

パターン：全体的に一貫性がない。明確なパターンなし。仮説：貴社の文脈を理解していないか、判断の哲学が根本的に異なっている。

両者とも76%ですが、候補者Aはコーチングできる弱点を露出させます（人間関係の判断）。一方、候補者Bは、理解の欠如または修正の難しい根本的ミスマッチを示しています。

領域別にパターンを追跡：

技術的判断（インシデント対応、デバッグ、アーキテクチャ）
人的判断（紛争、権限委譲、フィードバック）
実行判断（優先順位付け、リソース配分、トレードオフ）
リスク管理（エスカレーション、遅延すべき場面）

この粒度があれば、「パターンに基づいて、職務Xには向いているが職務Yには向いていない」と判断できます。

SJTスコア + 面接の一貫性

強いSJTスコアは、理論的には候補者が貴社の判断基準と合致していることを意味します。面接で、その判断を実行に移せるかを検証します。すべての面接官の一貫性を確保するために、採用評価基準表を使用してください。

強いSJT + 強い面接： 判断が合致し、具体例を説明できる。採用信頼度が高い。

強いSJT + 弱い面接： 理論的には「正しい」判断をしているが、具体例で裏付けできず、例が稽古のように感じられる。赤旗。掘り下げ：「調査ではなく、早期にエスカレートすることを選んだことはありますか。どんな状況でしたか？」

弱いSJT + 強い面接： テストではスコアが低いが、過去の判断は貴社の基準と合致している。よくあるケースとして：SJTで貴社の文脈を理解していない（業界が初めて）、または評価が想定と異なることを測定している。自動的に除外しないでください。ミスマッチの原因を理解してください。

弱いSJT + 弱い面接： 一貫したシグナル。判断が合致していないか、判断が弱い。フィットの可能性が低い。

SJTスコアがパフォーマンスを予測しない場合

SJTは判断測定には優れていますが、すべてを予測するわけではありません。予測できるもの：

曖昧性下での意思決定品質
問題解決アプローチ
エスカレーション規律
人的判断（マネジメント職）

予測できないもの：

実行速度（優れた判断はできるが、行動が遅い）
困難への耐性（正しい判断を知っていても、困難に直面すると諦める）
学習速度（判断基準は理解するが、内化に時間がかかる）
コミュニケーション能力（判断できるが、説明が下手）
技術スキル（技術的深さが判断と並んで重要な職務）

SJTだけに頼ると、これらの側面を見落とします。組み合わせてください：

コーディング・ワークサンプル評価で技術スキルを測定
行動面接で過去の実行と粘り強さを測定
構造化面接とルーブリックでコミュニケーション能力と深さを測定

SJT解釈での赤旗

赤旗1：全員が同じスコア

全候補者が82%、または全員が45%という場合、評価が区別できていません。考えられる原因：

評価が簡単すぎるか難しすぎる
基準ランキングが代表的でない
候補者がシナリオを理解していない

評価を改定します。3～5名でパイロット実施して、反復改善します。

赤旗2：スコアの分散が経験年数と相関していない

ジュニア候補者がシニア採用者よりスコアが高い場合、何か問題があります。原因として：

評価が、想定と異なることを測定している
スコアリングに一貫性がない
比較の基準が間違っている

高スコアと低スコアの候補者に聞いて調査してください：「その選択肢を最優先にした理由を説明してください」。彼らの説明が貴社の期待と合致していますか？

赤旗3：人口統計グループでスコアが大きく異なる

女性が男性より10ポイント以上低い、または特定の民族グループが体系的に低い場合、評価にバイアスがあるかもしれません。原因：

シナリオが文化的前提を反映している
言語が等しくアクセスしやすくない
シナリオが特定の経験を優遇している

バイアスについて検討し（評価設計における公正性）、多様なグループでテストしてください。

候補者へのスコア伝達

スコアが何を意味するか、透明性を持って説明してください。「72%をスコアしました」と言わないでください。代わりに：

「状況判断評価で、5つのシナリオのうち3つで、トップパフォーマーと同じトップ選択肢をランク付けしました。[領域]についての判断は、わが社の基準とよく合致しています。一方、[領域]へのアプローチは標準的なやり方と異なります。これは強みになる可能性（新しい視点）もあれば、わが社の文化への適応が必要な場合もあります。」

これはスコアを判断パターンとして再構成し、合否判定ではなくします。以下を伝えます：

具体的な何かを測定している
文脈を理解している
候補者の推論を学ぶ姿勢がある

採用判断でのSJTスコアの使い方

SJTスコアは多くのシグナルの1つです。以下のように使用してください：

スクリーニングフィルタ： SJT高得点 + 職務経歴書のフィット = 進める。SJT低得点だが興味深い背景 = 調査する。
面接のプローブ： 評価を行動質問の導入として使う。「エスカレーションシナリオでXを最優先にしたことに気付きました。実際にエスカレートした経験を教えてください。」
同等候補の決定打： 似た面接成績の候補者2人？SJT合致度が高い方が、貴社文化により適応しやすい。
オンボーディングのデータ： 採用した候補者については、入社時にSJTパターンを記録して、メンタリングの重点領域を特定する。

境界線上の候補者をノックアウトするツールとしてSJTを使わないでください。判断のための文脈として使ってください。

包括的な評価戦略には、コーディング評価、構造化面接、リファレンスチェックを組み合わせてください。各々は適性の異なる側面を測定します。

ClarityHireの評価プラットフォームには、自動スコアリング、内部トップパフォーマーとのベンチマーク、パターン分析が含まれており、解釈を簡素化します。

situational-judgmentSJTスコアリング解釈評価分析