Assessment Design

Cybersecurity Test Validity and Fairness: Building Assessments That Work and Scale

ClarityHire Team(Editorial)14 min read

重要な妥当性の質問

OWASP 知識に基づいてサイバーセキュリティ評価を構築します。OWASP 認定を持つ候補者は高いスコアを取得します。あなたは彼らを雇う。6 ヶ月後、半分の人が実際の仕事に苦労しています。脅威モデリング システム、防御アーキテクチャの設計、アラートのトリアージ。

あなたの評価は信頼性があります(一貫性)。有効ではありません(職務パフォーマンスを予測しません)。

妥当性は信頼性よりも構築するのが難しいですが、採用に唯一重要なものです。無効な評価は評価なしより悪いです。良い候補者をフィルタリングし、悪い候補者を自信を持って渡します。

重要な 3 つのタイプの妥当性

1. コンテンツ妥当性:評価はジョブと一致していますか?

セキュリティエンジニアのジョブには含まれます:

  • 脅威モデリング システム
  • コード レビューで脆弱性を確認
  • 防御の設計
  • 懐疑者へのトレードオフを説明

評価はこれらのドメインをサンプリングする必要があります。評価が 80% OWASP トリビアと 20%アーキテクチャの場合、コンテンツ妥当性がありません。間違ったことを測定しています。

構築方法:

  1. ジョブ分析を実施:この役割で成功したエンジニアは「実際に」何をしていますか?
  2. 評価にウェイト付けして一致させる:ジョブの 30%がコード レビューの場合、評価の 30%はコード レビューである必要があります。
  3. 無関係なスキルを回避:「アルゴリズム パズルを解く速度」は一部のハイアーと相関する可能性がありますが、セキュリティ判定には有効ではありません。
  4. 配置を検証:評価を役割の 3 人の経験者に表示します。同意していますか? そうでない場合は修正してください。

2. 予測妥当性:評価は職務の成功と相関していますか?

これは難しい部分です。長期的なデータが必要です:

  • 6 ヶ月間に 30 人の候補者を雇用
  • 評価スコアを測定する
  • 6~12 ヶ月後のパフォーマンスを測定(360 レビュー、プロジェクト配信、インシデント対応品質)
  • 相関を計算

高いスコアの候補者が一貫して低いスコアの候補者を上回る場合、予測妥当性があります。そうでない場合、評価は職務パフォーマンス以外を測定しています。

構築方法:

  • スコアとパフォーマンスを時間をかけて追跡
  • 不一致(高スコア、パフォーマンス不足)を見つけたら、理由を掘り下げる
  • 学んだことに基づいて評価を調整
  • 四半期ごとに繰り返す

これには時間がかかります。ほとんどの企業はそれをしていません。やった人はかなり良い採用成果を持っています。

3. 構成妥当性:評価は主張する概念を測定していますか?

「脅威モデリング能力」を評価する場合、実際にそれを測定していますか? または、執筆速度、自信、または何か他のものを測定していますか?

コンテンツ妥当性が低い例:

  • 質問:「上位 5 つの OWASP 脆弱性をリストしてください。」
  • 測定していると思うこと:脅威モデリング能力
  • 実際に測定していること:メモリと認定準備

より良い構成:

  • 質問:「システム アーキテクチャがあります。上位 3 つのセキュリティ リスクを特定します。尤度と影響による順位を付けます。」
  • 測定している内容:脅威モデリング能力(リスクの特定、重大度による優先順位付け)

検証方法:

  • 比較せずに同じ応答をスコアリングする 2 人の独立した評価者があります。大きく不同意する場合、構成は不明です。
  • 候補者のスコアが奇妙にクラスター化している場合(すべてが 95 または 35、真ん中の誰も)、構成に何かオフになります。

公平性:一般的な落とし穴を回避

妥当性と公平性は同じではありませんが、重なります。公平な評価は、無関連な違いに対して候補者にペナルティを与えません。

落とし穴 1:実際には要件ではない経験要件

「Linux システム管理知識」を評価します。役割はセキュリティアーキテクチャです。強力なセキュリティアーキテクトは Linux を迅速に学ぶことができます。評価は Linux を使用していない経験されたセキュリティ人を除外します。

修正:彼らが既にしたことではなく、役割で人がすることを評価します。役割が月 1 日に Linux を学習する必要がある場合は、これを言ってください。セキュリティ評価を使用して Linux fluency をテストしないでください。

落とし穴 2:役割に無関係なドメイン固有の知識

マルチクラウド環境で機能する候補者の「AWS セキュリティ特定」を評価します。Google Cloud をよりよく知るために彼らにペナルティを与えます。 不公平。

修正:クラウド セキュリティの原則を評価します。それらを彼らの優先プラットフォームに適用させます。

落とし穴 3:特定の背景に対して有利な時間的制約

60 分の評価を設定します。大企業からの候補者(多くのセキュリティプロジェクトを行った場合)40 分で完了します。セキュリティへのスイッチャーは遅い規律から 80 分かかります。スイッチャーにペナルティを与えます。

修正:合理的な時間の変動を許可します。速度はセキュリティ美徳ではありません。慎重な思考です。

落とし穴 4:複数の答えが正しい場合、1 つの「正解」があると仮定

「マイクロサービス環境でシークレットを保存する最良の方法は何ですか?」と尋ねます。AWS Secrets Manager のような管理シークレット ストアを使用する」ことを期待しています。

候補者は「マイクロ サイドカーを使用して外部ボルトを使用する」ことを提案します。別の回答、同じ推論品質。異なるソリューションのためにペナルティを与えないでください。

修正:推論をスコアリング、特定の回答ではありません。複数の有効なアプローチが通常存在します。結論ではなく、トレードオフ表現を判定します。

評価設計に公平性を構築

スコアをカットするのではなく、ルーブリックを使用

スコア カット:「70 を超えるスコアが通ります。」 ルーブリック:「70~80 スコアリングは、コード レビューにギャップがある脅威モデリングでの能力を示します。80+ 得点は、ドメイン全体にわたる強い判定を示しています。」

ルーブリックを使用すると、比例決定を下すことができます。スコア カットは鈍い楽器です。

作業スタイルに対応する

一部の候補者は時間圧力でうまく機能します。他は深く考えるのに時間が必要です。両方とも有効なセキュリティエンジニアです。

オプションを提供:

  • 90 分評価(標準)
  • または 120 分評価(リクエストする候補者用)
  • スコアは正規化されているため、速度は利点ではありません

スイッチャーの評価長さを削減

DevOps で 10 年、クラウド セキュリティに移行する候補者は DevOps の能力を証明する必要はありません。より短く、セキュリティに焦点を当てた評価は公平です。彼らはインフラストラクチャを知っています。セキュリティ判定をテストします。

異なるコミュニケーション スタイルをサポート

一部の候補者は流暢に書きます。他は言葉で説明する方が良いです。両方を提供:

  • 書面による回答
  • ビデオ説明
  • ドメイン専門家とのペアコーディング

無関連なフィルターを回避

  • 特定の認定を要求しません(認定ではなく、能力を採用)
  • 特定のツールを要求しません(セキュリティの原則は転送され、ツールは数週間で学習されます)
  • 特定の業界経験を要求しません(「銀行セキュリティ」は「ヘルスケア セキュリティ」とは異なりますが、脅威モデリングは同じです)

評価の不公平さを検出

四半期ごとの監査を実行:

シグナル意味する可能性のあるもの
1 つの人口統計グループが大幅に低いスコアを取得します評価設計または解釈の可能なバイアス
会社 X からの候補者は常に高いスコアを取得します可能なハイアリングソース バイアス(評価は訓練に利益する)
スコアは 6 ヶ月のパフォーマンスと相関しない評価は無効です。不公平ではなく
候補者は質問の混乱を報告評価の明確さの問題。認知能力ではなく

継続的な改善

公平で有効な評価は「完了」ではありません。改善によって:

  1. 結果の追跡:この評価に基づいて採用された候補者は成功しますか?
  2. フィードバックを収集:何が候補者を混乱させましたか? 不公平に感じたのは何ですか?
  3. バイアスのレビュー:異なるグループが異なるスコアを取得していますか? なぜ?
  4. 反復:データに基づいて質問、ルーブリック、時間制限を調整します。

最高の評価は 6 ヶ月ごとに確認および更新されます。

セキュリティ採用に対して重要な理由

セキュリティロールは埋めるのが難しい。候補者は珍しい。評価が不公平または無効な場合、成功する可能性のある人をフィルタリングし、偏った採用プロセスを構築しています。

実際のセキュリティ判定を測定する公平な評価は、候補者プールを広げ、採用を改善し、より包括的な採用プロセスを構築します。

ClarityHire 評価設計 には、組み込みルーブリック、調整、および結果追跡が含まれているため、スクラッチから始めることなく公平性と妥当性を検証できます。結果を追跡し、反復し、シグナルを継続的に改善します。

そのようにして、セキュリティ採用を構築します。

cybersecurityassessment validityfairness in hiringbias

関連記事