採用研究

Criteria Corp vs SHL: 妥当性研究と数字が意味するもの

ClarityHire Team(Editorial)2026-05-1213 min read

「妥当性がある」が実際に意味するもの

認知テストのベンダーが「妥当性がある」と言う場合、次のいずれか（または複数）を指しています：

構成概念妥当性。 テストが謳う概念（一般的な認知能力、数値推論など）を実際に測定している。
基準関連妥当性。 テストのスコアが職務パフォーマンス指標と相関している。通常は上司の評価か生産性データ。
信頼性。 同じテストを複数回実施しても同様のスコアが得られ、異なる形式のテストも同等の結果を示す。
公平性。 スコア分布と予測精度が、保護された人口動態グループ間で不公正に異なっていない。

Criteria CorporationとSHLは両社とも、これら4つをカバーする技術マニュアルを公開しています。マニュアルは有用ですが、誤読しやすいものです。この記事では、各ベンダーの研究が実際に何を示しているか、そしてより広くベンダーの妥当性主張をどう評価するかを説明します。より広い視点については、当社の予測妥当性研究サマリーも参照してください。

Criteria CorporationのCCAT

主要な主張。 CCATは、一般的な認知能力テストに関する広いメタ分析文献と一致して、様々な職種において0.40～0.65の妥当性係数でジョブパフォーマンスと相関している。

研究ベースの様子。 Criteriaは数百の妥当性研究をカバーする技術マニュアルを公開しており、顧客企業で実施されたローカル妥当性研究も含まれています。方法論は標準的です：現職者のサンプルからCCATスコアを収集し、上司によるパフォーマンス評価を収集して相関を計算し、範囲制限と測定誤差について補正します。

差別的影響データ。 CCATは標準的な認知能力テストの人口動態パターンを示します。米国での人種・民族グループ間の平均スコアに控えめな差が見られ、これは認知テスト研究の広い文献と一致しています。Criteriaはこれらの差異を技術マニュアルで透明に公開しています。4/5ルールが適用されます。CCATを厳密なカットオフとして採用活動に使用する場合は、自社の選抜率に対して独自の差別的影響分析を実施する必要があります。

強み。 長い発表の歴史がある。ほとんどの妥当性研究で適切なサンプルサイズを確保している。方法論が透明。妥当性の数字はメタ分析レベルで信頼できる。

読むべき弱点。 公開されている妥当性研究の多くは、「予測的」ではなく「同時」デザインを使用しています。つまり、現在の従業員のテストスコアと現在のパフォーマンスを相関させており、求職者をテストして時間をかけて追跡するのではなく。同時デザインは一般に、予測的デザインよりも高い係数を生み出します。特定の研究の数字を引用する前に、その方法論セクションを必ず読んでください。

SHL Verify Interactive G+

主要な主張。 Verify Interactive G+は適応精度で一般的な認知能力を測定し、職務パフォーマンスに対して0.50～0.65の妥当性係数を示します。さらに、適応的テストは固定形式のテストと比較して測定誤差を削減するという追加の主張があります。

研究ベースの様子。 SHLは数百の研究と多くの大規模サンプルを含む広範なグローバル妥当性データベースを持ち、数十の国に展開されています。技術マニュアルは詳細で、構成概念妥当性（G+スコアの因子構造）、基準関連妥当性（大規模メタ分析サンプル）、文化的公平性をカバーしています。

差別的影響データ。 SHLもグループ間の差異についてのデータを公開しています。CCATと同様に、Verifyは標準的な認知テストパターンを示します。SHLのローカライゼーション作業（異なる国向けに項目を調整し、新たに規範化すること）は、文化を超えた不公正さの一部のソースを減らしていますが、基本的な能力スコアの差異は、より広い研究と一致したまま。

強み。 Criteriaより大規模でより多様な妥当性データベース。特に米国外で。適応型テストの方法論は心理測定学的により効率的。IRT（項目反応理論）に基づいた強力な項目分析。

読むべき弱点。 SHLの最大の妥当性研究は特定の業界（金融サービス、コンサルティング、石油ガス）に集中しています。自社の職種への一般化には、SHLが提供するローカル妥当性研究が必要です。公開されている係数の一部は予測的ではなく同時デザインから得られており、Criteriaと同じ注意が必要です。

妥当性における頭対頭比較

両ベンダーはほぼ同じ妥当性帯（補正で0.50、未補正でどこか0.30代）に着地します。これは認知能力テストに関するより広い研究と一致しています。一般的な用途のどちらかがより予測的であることを示す公開の直接比較研究は存在しません。

実際に異なる点：

テスト実施エラー。 SHL Verifyの適応型設計はテストレベルの測定誤差を削減します。特に高い能力レベルで。CCATの固定形式は推測と時間制限の影響に対してより敏感。
実務での範囲制限。 履歴書スクリーニングに既に合格した候補者のみをテストする場合、候補者プールが範囲制限されるため、両方のテストはメタ分析の数字より低い観測係数を示します。これはベンダー間の違いではなく、すべてのテストの本質的な特性です。
文化を超えた妥当性。 SHLは米国以外の採用に対してより厳密なローカライゼーションを行っています。米国のみの採用の場合、差は小さい。

妥当性は必要だが十分ではない

高い妥当性係数はテストがパフォーマンスを予測することを示していますが、次のことは示していません：

そのテストが自社の職種にとって最高のレバレッジを持つ評価方法であるかどうか
コストがより単純な代替手段に対する限定的な改善の価値があるかどうか
採用マネージャーが実際にスコアを使用するか、むしろ直感で判断をオーバーライドするかどうか
そのテストが候補者体験の問題を引き起こし、優秀な候補者を獲得前に失わせるかどうか

採用方法に関する研究は一貫して示しています。認知能力テストをもう1つの有効な方法（ワークサンプルまたは構造化面接）と組み合わせることで、認知能力のみより有意に高い合成妥当性が得られます。妥当性係数は根本的な構成の限界まで、大まかに合成R²に加算されます。

実務的には、これはCCATまたはSHL Verifyのどちらかを単一採用フィルターとして選ばないことを意味します。どちらか一方を認知成分として選択し、構造化行動面接とワークサンプルと組み合わせます。最高妥当性採用ループを参照してください。

ClarityHireの位置づけ

ClarityHireは認知能力テストを提供していません。当社はワークサンプル側に焦点を当てています：コーディング評価、ライブコーディング、構造化行動スコアカード、インテグリティ検証。

CCAT またはSHL Verify（認知能力）とClarityHire（ワークサンプル＋構造化面接＋インテグリティ検証）の組み合わせは、ナレッジワーカー採用に対して研究文献が最も強く支持する構成です。統合採用ループの妥当性係数はメタ分析文献で0.60以上に達し、単一手法のみよりも有意に高い。

ベンダーの妥当性主張を評価する方法

Criteria、SHL、またはその他のベンダーを検討する場合は、以下を確認してください：

その係数はどのサンプルから出たのか？ 同時設計か予測設計かが重要。採用前データが金標準です。
どのような補正方法が適用されたのか？ 補正と未補正の係数は0.10～0.20異なる場合があります。どちらも正当です。どちらを読んでいるかを理解してください。
自社の状況での差別的影響比はいくら？ ベンダー公開数は集計値。自社の選抜率で独自の分析を実施します。
ローカル妥当性の検証はどのような状況？ 一般的な妥当性は強いデフォルトですが、カスタムローカル研究がテストが自社の状況で機能することを証明する唯一の方法です。

CriteriaとSHLの両社は顧客固有の妥当性研究をサポートしています。SHLのものはより詳細で（かつより高額）、Criteriaのものはより軽量です。どちらも組織全体でツールをスケーリングする前に実施する価値があります。

参照：機能比較および価格とROI分析。

criteria corpshl予測妥当性認知能力テスト心理測定法

Criteria Corp vs SHL: 妥当性研究と数字が意味するもの

「妥当性がある」が実際に意味するもの

Criteria CorporationのCCAT

SHL Verify Interactive G+

妥当性における頭対頭比較

妥当性は必要だが十分ではない

ClarityHireの位置づけ

ベンダーの妥当性主張を評価する方法

関連記事

非同期技術面接は公正か？妥当性、インテグリティ、候補者体験

Criteria Corp vs SHL: Pricing, Total Cost, and ROI

Criteria Corp vs SHL：認知能力評価の比較