Hiring Research

Criteria Corp vs SHL: Validity Research and What the Numbers Mean

ClarityHire Team(Editorial)12 min read

「検証」が実際に意味すること

認知テストベンダーが「検証」と言う場合、彼らは次の 1 つ(または複数)を意味します:

  1. 構成妥当性。 テストは、それが主張するもの(一般的な精神能力、数値推論など)を測定しています。
  2. 基準妥当性。 テストのスコアは、オンザジョブパフォーマンス対策と相関します。通常は上司の評価または生産性データです。
  3. 信頼性。 繰り返し管理は同様のスコアを生成します。代替形式は同等です。
  4. 公平性。 スコア分布と予測精度は、保護された人口統計グループ全体で不当に異なります。

Criteria Corp と SHL の両方が、4 つをカバーする技術マニュアルを公開しています。マニュアルは有用ですが、読みやすいです。この投稿では、各ベンダーの研究が実際に何を示しているか、一般的にベンダーの妥当性の主張をどのように評価するか。より広い 予測妥当性研究要約 も参照してください。

Criteria Corp の CCAT

フラグシップの主張。 CCAT は、より広いメタ分析文献から一般的な認知能力テストと一致して、多様な職業系全体で 0.40–0.65 範囲の妥当性係数でのジョブパフォーマンスと相関します。

研究ベースがどのように見えるか。 Criteria は、数百の検証研究をカバーする技術マニュアルを公開しており、顧客組織で行われたローカル検証研究を含みます。方法論は従来です:現職者のサンプルから CCAT スコアを収集、上司のパフォーマンス評価を収集、相関を計算、範囲制限および測定誤差を修正します。

逆影響データ。 CCAT は、標準的な認知能力テスト人口統計パターンを示します。米国の人種/民族グループ全体での控えめな平均スコアの違い、認知テストに関するより広い文献と一致します。Criteria は、技術マニュアルでこれらの違いを公開しています。4/5 ルールが適用されます。CCAT をキ厳密なカットオフとして使用する採用チームは、特定の選択比に対して独自の逆影響分析を実行する必要があります。

強さ。 長い発行履歴。ほとんどの検証研究でのある程度のサンプルサイズ。透明な方法論。妥当性数値はメタ分析レベルで信頼できます。

弱さを読む。 多くの公開検証研究は、「現職」ではなく「予測的」設計を使用します。彼らは、現在のスタッフテストスコアを現在のパフォーマンスと相関させ、申請者をテストして時間をかけてそれらを追う代わりに。現職設計は一般に、予測的設計よりも高い係数を生成します。特定の研究の番号を引用する前に、その方法論セクションを読んでください。

SHL Verify Interactive G+

フラグシップの主張。 Verify Interactive G+ は、一般的な精神能力をアダプティブ精度で測定し、職務パフォーマンスに対して同じ 0.50–0.65 バンドで妥当性係数を生成し、アダプティブテストが固定形式テストと比較して測定誤差を減らすという追加の主張があります。

研究ベースがどのように見えるか。 SHL には、広範なグローバル検証データベースがあります。数百の研究、多くの大規模サンプル、数十の国全体に配置されています。技術マニュアルは密集しており、構成妥当性(G+ スコアの因子構造)、基準妥当性(大規模メタ分析サンプル)、文化的公平性をカバーしています。

逆影響データ。 SHL は、グループの違いのデータも公開しています。CCAT のように、Verify は標準的な認知テストパターンを示します。SHL のローカライゼーション作業(異なる国向けに調整および再標準化された項目)は、クロスカルチャル不公平さの一部のソースを削減しますが、基本的な能力スコアの違いは、より広い研究と一致しています。

強さ。 Criteria よりも大きく、より多様な検証データベース。特に米国以外。アダプティブテスト方法論は心理測定的により効率的です。強力な IRT ベースの項目分析。

弱さを読む。 SHL の最大の検証研究は、特定の業界(金融サービス、コンサルティング、石油ガス)に集中しています。特定の役割ファミリーへの一般化は、SHL が販売するローカル検証研究に値します。公開係数の一部は、Criteria と同じ警告の予測的なデザインから同時に来ます。

妥当性に関して、ヘッドツーヘッド比較

両ベンダーは、ほぼ同じ妥当性バンド(0.50 補正、0.30 未補正のどこか)に着地します。これは、認知能力テストに関するより広い研究と一致しています。一般的な使用のために、一方が意味のあるほど予測的であることを示す公開直接ヘッドツーヘッド研究はありません。

彼らが実際に異なる場所:

  • テスト管理エラー。 SHL Verify のアダプティブ設計は、テストレベルの測定誤差を削減します。特に能力の高い方で。CCAT の固定形式は、推測と時間圧力の影響に対してより敏感です。
  • 実際の範囲制限。 レジュメスクリーンを既に合格した候補者のみをテストする場合、候補者プールが範囲制限されているため、両方のテストがメタ分析数値より「低い」観測係数を示します。これはベンダー差ではなく、任意のテストのプロパティです。
  • クロスカルチャル妥当性。 SHL は、非米国採用に対する、より厳密なローカライゼーションを持っています。米国のみの採用の場合、ギャップは小さいです。

妥当性は必要ですが、十分ではありません

高い妥当性係数は、テストがパフォーマンスを予測することを示しています。それは「しない」ことを示しています:

  • テストが特定の役割のための最高レバレッジ評価であるかどうか
  • コストが、より簡単な代替よりも限界改善の価値があるかどうか
  • 採用マネージャーが実際にスコアを使用するか、または直感的にそれをオーバーライドするか
  • テストが 候補者体験問題 を作成するかどうか、あなたはアップストリーム候補者を失う費用

採用方法の研究 は、認知能力を 1 つの他の有効な方法(作業サンプル、構造化面接)と「組み合わせる」が、認知だけより意味のあるほど高い組み合わせ妥当性を生成することを一貫して示しています。妥当性係数は、基本的な構成の限定まで、大雑把に組み合わされた R ² に追加されます。

実際には、これは次を意味します:CCAT「または」SHL Verify をあなたの単一採用フィルターとして選択しないでください。いずれかを認知成分として選択してから、構造化行動面接と作業サンプルと組み合わせます。最高妥当性採用ループ のライトアップを参照してください。

ClarityHire がどこに適合するか

ClarityHire は認知能力テストを出荷しません。私たちは、作業サンプル側に焦点を当てています:コーディング評価ライブコーディング構造化行動スコアカードインテグリティ検証

CCAT または SHL Verify(認知)と ClarityHire(作業サンプル+構造化面接+インテグリティ)のペアリングは、研究ベースが知識労働者採用に最も強く支持する構成です。統合ループの妥当性係数は、メタ分析文献で 0.60 以上に達し、単一方法だけより意味のあるほど高いです。

ベンダーの妥当性の主張を評価する方法

Criteria、SHL、または他のベンダーを探しているかどうかにかかわらず、尋ねてください:

  1. 係数はどのサンプルからですか? 同時対予測的な設計は重要です。雇用前データが金標準です。
  2. どの修正方法が適用されましたか? 補正対未補正係数は 0.10–0.20 で異なる場合があります。どちらも正当です。知道が読んでいるのを知ってください。
  3. あなたのコンテキストでの逆影響比はどうですか? ベンダー公開番号は集計です。選択比に対して独自の分析を実行します。
  4. ローカル検証ストーリーは何ですか? 一般的な妥当性は強いデフォルトですが、カスタムローカル研究は、テストが「あなたの」設定で機能することを証明する唯一のことです。

Criteria と SHL の両方は、顧客固有の検証研究をサポートします。SHL のはより詳細です(より高価)。Criteria のはより軽量です。いずれもツール組織全体でスケーリングする前に行う価値があります。

参照:機能比較 および 価格設定と ROI の内訳

criteria corpshlpredictive validitycognitive assessmentspsychometrics

関連記事