Cybersecurity Test Validity and Fairness: Building Assessments That Work and Scale
重要な妥当性の質問
OWASP 知識に基づいてサイバーセキュリティ評価を構築します。OWASP 認定を持つ候補者は高いスコアを取得します。あなたは彼らを雇う。6 ヶ月後、半分の人が実際の仕事に苦労しています。脅威モデリング システム、防御アーキテクチャの設計、アラートのトリアージ。
あなたの評価は信頼性があります(一貫性)。有効ではありません(職務パフォーマンスを予測しません)。
妥当性は信頼性よりも構築するのが難しいですが、採用に唯一重要なものです。無効な評価は評価なしより悪いです。良い候補者をフィルタリングし、悪い候補者を自信を持って渡します。
重要な 3 つのタイプの妥当性
1. コンテンツ妥当性:評価はジョブと一致していますか?
セキュリティエンジニアのジョブには含まれます:
- 脅威モデリング システム
- コード レビューで脆弱性を確認
- 防御の設計
- 懐疑者へのトレードオフを説明
評価はこれらのドメインをサンプリングする必要があります。評価が 80% OWASP トリビアと 20%アーキテクチャの場合、コンテンツ妥当性がありません。間違ったことを測定しています。
構築方法:
- ジョブ分析を実施:この役割で成功したエンジニアは「実際に」何をしていますか?
- 評価にウェイト付けして一致させる:ジョブの 30%がコード レビューの場合、評価の 30%はコード レビューである必要があります。
- 無関係なスキルを回避:「アルゴリズム パズルを解く速度」は一部のハイアーと相関する可能性がありますが、セキュリティ判定には有効ではありません。
- 配置を検証:評価を役割の 3 人の経験者に表示します。同意していますか? そうでない場合は修正してください。
2. 予測妥当性:評価は職務の成功と相関していますか?
これは難しい部分です。長期的なデータが必要です:
- 6 ヶ月間に 30 人の候補者を雇用
- 評価スコアを測定する
- 6~12 ヶ月後のパフォーマンスを測定(360 レビュー、プロジェクト配信、インシデント対応品質)
- 相関を計算
高いスコアの候補者が一貫して低いスコアの候補者を上回る場合、予測妥当性があります。そうでない場合、評価は職務パフォーマンス以外を測定しています。
構築方法:
- スコアとパフォーマンスを時間をかけて追跡
- 不一致(高スコア、パフォーマンス不足)を見つけたら、理由を掘り下げる
- 学んだことに基づいて評価を調整
- 四半期ごとに繰り返す
これには時間がかかります。ほとんどの企業はそれをしていません。やった人はかなり良い採用成果を持っています。
3. 構成妥当性:評価は主張する概念を測定していますか?
「脅威モデリング能力」を評価する場合、実際にそれを測定していますか? または、執筆速度、自信、または何か他のものを測定していますか?
コンテンツ妥当性が低い例:
- 質問:「上位 5 つの OWASP 脆弱性をリストしてください。」
- 測定していると思うこと:脅威モデリング能力
- 実際に測定していること:メモリと認定準備
より良い構成:
- 質問:「システム アーキテクチャがあります。上位 3 つのセキュリティ リスクを特定します。尤度と影響による順位を付けます。」
- 測定している内容:脅威モデリング能力(リスクの特定、重大度による優先順位付け)
検証方法:
- 比較せずに同じ応答をスコアリングする 2 人の独立した評価者があります。大きく不同意する場合、構成は不明です。
- 候補者のスコアが奇妙にクラスター化している場合(すべてが 95 または 35、真ん中の誰も)、構成に何かオフになります。
公平性:一般的な落とし穴を回避
妥当性と公平性は同じではありませんが、重なります。公平な評価は、無関連な違いに対して候補者にペナルティを与えません。
落とし穴 1:実際には要件ではない経験要件
「Linux システム管理知識」を評価します。役割はセキュリティアーキテクチャです。強力なセキュリティアーキテクトは Linux を迅速に学ぶことができます。評価は Linux を使用していない経験されたセキュリティ人を除外します。
修正:彼らが既にしたことではなく、役割で人がすることを評価します。役割が月 1 日に Linux を学習する必要がある場合は、これを言ってください。セキュリティ評価を使用して Linux fluency をテストしないでください。
落とし穴 2:役割に無関係なドメイン固有の知識
マルチクラウド環境で機能する候補者の「AWS セキュリティ特定」を評価します。Google Cloud をよりよく知るために彼らにペナルティを与えます。 不公平。
修正:クラウド セキュリティの原則を評価します。それらを彼らの優先プラットフォームに適用させます。
落とし穴 3:特定の背景に対して有利な時間的制約
60 分の評価を設定します。大企業からの候補者(多くのセキュリティプロジェクトを行った場合)40 分で完了します。セキュリティへのスイッチャーは遅い規律から 80 分かかります。スイッチャーにペナルティを与えます。
修正:合理的な時間の変動を許可します。速度はセキュリティ美徳ではありません。慎重な思考です。
落とし穴 4:複数の答えが正しい場合、1 つの「正解」があると仮定
「マイクロサービス環境でシークレットを保存する最良の方法は何ですか?」と尋ねます。AWS Secrets Manager のような管理シークレット ストアを使用する」ことを期待しています。
候補者は「マイクロ サイドカーを使用して外部ボルトを使用する」ことを提案します。別の回答、同じ推論品質。異なるソリューションのためにペナルティを与えないでください。
修正:推論をスコアリング、特定の回答ではありません。複数の有効なアプローチが通常存在します。結論ではなく、トレードオフ表現を判定します。
評価設計に公平性を構築
スコアをカットするのではなく、ルーブリックを使用
スコア カット:「70 を超えるスコアが通ります。」 ルーブリック:「70~80 スコアリングは、コード レビューにギャップがある脅威モデリングでの能力を示します。80+ 得点は、ドメイン全体にわたる強い判定を示しています。」
ルーブリックを使用すると、比例決定を下すことができます。スコア カットは鈍い楽器です。
作業スタイルに対応する
一部の候補者は時間圧力でうまく機能します。他は深く考えるのに時間が必要です。両方とも有効なセキュリティエンジニアです。
オプションを提供:
- 90 分評価(標準)
- または 120 分評価(リクエストする候補者用)
- スコアは正規化されているため、速度は利点ではありません
スイッチャーの評価長さを削減
DevOps で 10 年、クラウド セキュリティに移行する候補者は DevOps の能力を証明する必要はありません。より短く、セキュリティに焦点を当てた評価は公平です。彼らはインフラストラクチャを知っています。セキュリティ判定をテストします。
異なるコミュニケーション スタイルをサポート
一部の候補者は流暢に書きます。他は言葉で説明する方が良いです。両方を提供:
- 書面による回答
- ビデオ説明
- ドメイン専門家とのペアコーディング
無関連なフィルターを回避
- 特定の認定を要求しません(認定ではなく、能力を採用)
- 特定のツールを要求しません(セキュリティの原則は転送され、ツールは数週間で学習されます)
- 特定の業界経験を要求しません(「銀行セキュリティ」は「ヘルスケア セキュリティ」とは異なりますが、脅威モデリングは同じです)
評価の不公平さを検出
四半期ごとの監査を実行:
| シグナル | 意味する可能性のあるもの |
|---|---|
| 1 つの人口統計グループが大幅に低いスコアを取得します | 評価設計または解釈の可能なバイアス |
| 会社 X からの候補者は常に高いスコアを取得します | 可能なハイアリングソース バイアス(評価は訓練に利益する) |
| スコアは 6 ヶ月のパフォーマンスと相関しない | 評価は無効です。不公平ではなく |
| 候補者は質問の混乱を報告 | 評価の明確さの問題。認知能力ではなく |
継続的な改善
公平で有効な評価は「完了」ではありません。改善によって:
- 結果の追跡:この評価に基づいて採用された候補者は成功しますか?
- フィードバックを収集:何が候補者を混乱させましたか? 不公平に感じたのは何ですか?
- バイアスのレビュー:異なるグループが異なるスコアを取得していますか? なぜ?
- 反復:データに基づいて質問、ルーブリック、時間制限を調整します。
最高の評価は 6 ヶ月ごとに確認および更新されます。
セキュリティ採用に対して重要な理由
セキュリティロールは埋めるのが難しい。候補者は珍しい。評価が不公平または無効な場合、成功する可能性のある人をフィルタリングし、偏った採用プロセスを構築しています。
実際のセキュリティ判定を測定する公平な評価は、候補者プールを広げ、採用を改善し、より包括的な採用プロセスを構築します。
ClarityHire 評価設計 には、組み込みルーブリック、調整、および結果追跡が含まれているため、スクラッチから始めることなく公平性と妥当性を検証できます。結果を追跡し、反復し、シグナルを継続的に改善します。
そのようにして、セキュリティ採用を構築します。