評価設計

仕事サンプルテスト：最も予測的な評価形式、適切に設計

ClarityHire Team(Editorial)2026-05-076 min read

研究が何を言うか

産業組織心理学の数十年にわたる研究全体で、仕事サンプルテスト（候補者が実際の職務から代表的なタスクを実行する評価）は構造化面接、認知テスト、性格テスト、参照チェックを職務パフォーマンスの予測的有効性で上回ります。

また、認知テストよりも有害な影響が少ない傾向があります。これにより、採用成果と並んで多様性成果のための強い選択肢になります。

では、なぜすべてのチームがそれを使用していないのですか？それらは設計が難しいから、そして設計不十分な仕事サンプルはサンプルがないことより悪いからです。

「適切に設計」は何を意味するか

5つの基準：

1. 代表的

タスクは、候補者が最初の3ヶ月間のロール内で実際に行うことをミラーしなければなりません。特殊な場合ではありません。最も複雑なタスクではありません。典型的なもの。

2. スコープ

スクリーン段階で90分以下。オンサイト段階で3時間以下。それより長いものはPipelineの幅をMarginなShigalのために取引します。

3. Self-contained

候補者はタスクを完了するために、あなたのCodebase、あなたの顧客のData、またはあなたの内部ツールへのAccessが必要なはずではありません。Self-containedなSandboxはテストを公正に保ち、Productionを保護します。

4. Rubric-anchored

各Rubric Dimensionには、具体的な振る舞いを説明する1～4つのアンカーがあります。審査官は彼らの「良い」の内部感覚ではなく、アンカーに対してスコアしません。

5. 15分以内で審査可能

レビュアーが1つのSubmissionをGradeするのに1時間かかる必要がある場合、Sustainability問題があります。ArtifactがRubricに対してSkimでGradeできるようにタスクを設計します。AI初回Passスコアリング（Humanオーバーライド付き）はより長いタスクを扱いやすくしますが、テストはフォーカスされたArtifactから利益を得ます。

Role別の例

**Backend エンジニア：**提供されたServiceに小さなEndpointを追加します。候補者がCodeを読むことから発見する必要がある1つのEdge Caseで。
**Frontendエンジニア：**提供されたReactアプリで3つのバグを修正（Renderingパフォーマンス、Error状態、Layout Edge Case）。
**Data Scientist：**提供された乱雑なDatasetを分析し、明確な推奨を含む1ページのWriteupを作成します。
**デザイナー：**提供されたLow Qualityスクリーンを再設計し、スコープと書き込み根拠に制約をつけます。
**Product Manager：**問題Statementと制約Setを与えた機能の1ページのPRDを書きます。

各々は60～120分かかり、Calibratedレビュアーが15分でRubric-Gradeできるアーティファクトを生成します。

Integrityはこれまで以上に重要です

2026年のテイクホーム仕事サンプルは、プライベートアーティファクトではありません。AIアシスタントは上記のほとんどの説得力のある初期ドラフトを生成できます。アシスタントで渡される仕事サンプルは、スキルを持っている人ではなく、アシスタントを持っている人を測定する仕事サンプルです。

2つのMitigations：

**すべてのテイクホームをWalk-through面接とペアにします。**彼らの提出を説明できない候補者はそれを書きませんでした。
Integrity Signalsを使用します。 ClarityHireはテイクホームSubmissionでKeystroke PatternsとCode CoherenceをCaptureし、Suspicious Sessionにフラグを立てて、レビュアーが特別にProbeします。

どちらもWell-designedテストを置き換えませんが、一緒に仕事サンプル評価を「高シグナルだが簡単にゲーム」から「高シグナルで偽ることが難しい」に移動します。

決してしないこと

本物のProductionの仕事がテストに偽装されました。
スクリーン段階で3時間以上のテスト。
Rubricなしでスコアされたテスト。
Anonymization なしでスコアされたテスト。

Well-designedな仕事サンプルは、ほとんどのHiring Loopが追加できる最も高いLeverageのことです。また、設計に実際の考えが必要であるため、ほとんどスキップされています。考えを費やしてください。

仕事サンプル評価予測的有効性採用