ソフトウェアスキルテストの有効性と公正性
誰もが認めたくない妥当性の問題
あなたの会社は財務アナリスト役向けのExcel評価を使用しています。候補者はスコアが高く、採用します。彼らはオンボードされ、6か月後に気づきます:テストスコアと実際のパフォーマンスの間に相関がありません。
一部の高スコアラーは現在あなたの最良のパフォーマーです。一部は苦労しています。一部の低スコアラーはランプアップ後に有能であることが判明しました。
あなたのテストは職務遂行を測定していません。それは何かを測定しています。テイキングスキル、特定のツールへの事前の露出、時間的プレッシャーの下での快適さです。しかし、あなたが気にかけていることではありません。
これは妥当性の問題です。誰もがソフトウェアスキルテストを展開後に検証していないため、一般的です。
妥当性が実際に意味すること
テストは、測定すると主張するものを測定し、職務上のパフォーマンスを予測する場合に有効です。
あなたのExcelテストは「財務分析のためのExcelスキル」を測定すると主張しています。それはそれを測定しますか?
- 高スコアは、その人が正確な財務モデルを作成することを予測しますか?
- 低スコアは、彼らが苦労することを予測しますか?
- またはスコアは別のもの(自信、テイキング速度、以前のExcel経験)を予測しますか?
妥当性は、テストが難しいか簡単かについてのことではありません。テストが将来のパフォーマンスを予測するかどうかについてのことです。
些細なテストは、成功する人と成功しない人を分離する場合に有効です。複雑なテストは、高スコアラーが実際に職務上で低スコアラーより優れたパフォーマンスを示さない場合に無効です。
テストを検証する方法(使用してからしばらく経った後)
評価を通じて人を雇った後、6か月待ちます。その後:
-
職務上のパフォーマンスを追跡する テストを受けた10~20人:
- 高スコアラー(80%以上):期待を上回るパフォーマンスを示している何人ですか?(パフォーマンス評価またはプロジェクト成果に対して追跡します。)
- 中スコアラー(60~79%):同じ質問。
- 低スコアラー(60%未満):同じ質問。
-
相関を探します。
- 強い妥当性:高スコアラーは不釣り合いに成功します。低スコアラーは不釣り合いに苦労します。
- 弱い妥当性:スコアはすべてマップ上にあります。高スコアラーと低スコアラーは同様に成功し、失敗します。
-
テストが実際に予測するものを特定します。
- 高スコアラーが数式構築に優れているが、データ品質思考に苦労している場合、テストは数式に対して有効ですが、分析には有効ではありません。
- 高スコアラーが速いが推論に優れていない場合、テストはスピードを測定し、スキルではありません。
-
採用マネージャーの話を聞きます。
- あなたのチームに尋ねます:「テストでよくスコアした人は職務上よくパフォーマンスしますか?」彼らが「いいえ」と言う場合、妥当性の問題があります。
これは完璧な科学ではありませんが、テストが難しく感じるために有効であると仮定することに勝ります。
公平性の問題:テストは誰に利点を与えますか?
公平性は、すべての人にとってテストが簡単であることを意味しません。これは、テストが職務に関連しない属性に基づいて人々に不利を与えないことを意味します。
テストは不公平です:
1. 正確なツール(ツール固有のバイアス)への事前の露出が必要です
例:「CALCULATEと行コンテキストロジックを使用してPower BIメジャーを作成します。」
5年間Tableauを使用した候補者は、より強いアナリストであっても、このテストを爆撃します。彼らはコンセプトを知っています。彼らはPower BIの構文を暗記していません。
修正: シンタックスではなく、コンセプト(条件付き集約)をテストしてください。必要に応じて、候補者が疑似コードでアプローチを説明できるようにしてください。
2. 文化的または社会経済的背景を想定しています(背景バイアス)
例(今ではより一般的ではありませんが、それは起こります):「ビジネスアナリストは四半期の結果をボードに提示する必要があります。そのコンテキスト向けのダッシュボードを構築します。」
非ビジネス背景からの候補者は、「四半期の結果をボードへ」が意味することを知らない可能性があります。彼らは異なるダッシュボードを構築し、スコアが低くなり、拒否されます。分析スキルの欠如ではなく、ビジネスコンテキストの欠如のためではありません。
修正: コンテキストを提供してください。企業報告の事前の経験を想定しないでください。
3. ケアギビングまたは時間制約にペナルティを与えます(アクセスバイアス)
例:6時間のテイクホームテスト。
ケアギビングの責任を持つ候補者は、スキルがないため、6時間のテストでより低いスコアを付ける可能性があります。彼らは6時間の中断されていない時間を見つけることができませんでした。柔軟な日中の仕事がある候補者は簡単にそれを行うことができます。
修正: 時間制限を調整するか、同期オプションを提供してください。2時間の焦点を絞った作業は、6時間の中断されたスキルよりもスキルを測定します。
4. ソフトウェアアクセスまたはインターネット安定性が必要です(インフラストラクチャバイアス)
例:高帯域幅コラボレーションとタイトレイテンシを必要とするライブPower BIダッシュボードテスト。
インターネットが悪い地域の候補者は、スキルに関係なく苦労します。彼らはスコアが低くなり、拒否されます。拒否は彼らの能力と無関係です。
修正: オフラインの代替案(ローカルPBIXファイル、電子メール提出)を提供するか、解釈でインフラストラクチャバリアを認識してください。
5. 非英語話者向けの英語の流暢性を想定しています(言語バイアス)
例:言語の直接的に書かれていない役割であっても、英語で複雑な書かれた指示を持つテスト。
非母国語スピーカーは、指示を誤解したため、技術スキルの欠如ではなく、より低いスコアを付ける可能性があります。
修正: シンプルで直接的な指示。明確化を提供してください。執筆の品質ではなく、作業について級です。
6. 緊張を利用する(コンテキストバイアス)
例:30分間のライブコーディングテストとあなたの監視。
不安な候補者は凍りつきる可能性があり、有能であっても貧弱な作業を作成します。自信のある候補者は同じ圧力の下で強い作業を作成します。
修正: テイクホームとペアライブ評価。テイクホームは思考を測定します。ライブ評価は圧力の下でのパフォーマンスを測定します。両方とも有効です。ただし、1つに過度の重みを付けないでください。
より公平な評価を構築する
ソフトウェアスキルテストを展開する前に、このチェックリストを使用してください:
- スキルまたはツールをテストしていますか? 分析思考に関心がある場合は、それをテストしてください。Power BIを具体的に知ることに依存しないでください。
- 測定していない事前のコンテキストを想定していますか? 役割がビジネスコンテキストを必要とする場合、オンボーディングを含めます。まだそれを持っていない人々にペナルティを与えないでください。
- 異なるライフシチュエーション向けの時間は現実的ですか? ケアギビングの責任を持つ誰かがこれを完了できますか?そうでない場合は、時間または形式を調整してください。
- 指示は単純言語で明確ですか? 非母国語スピーカーが尋ねられていることを理解できますか?
- 評価は同じ答えへの異なるパスを許可しますか? ExcelとGoogle Sheetsの両方が機能する場合、Sheetsユーザーにペナルティを与えないでください。
- スキルまたは自信を測定していますか? 高スコアは自信または実際の能力と相関していますか?簡単な検証チェックを実行します。
特別な事例:ツール固有対コンセプトベースのテスト
一部の役割は、特定のツールを実際に必要とします。Excelを広く使用している会社の財務アナリストは、Excelスキルが必要である可能性があります。
しかしこれについて明確にしてください。
ツール固有の評価: 「この役割はExcelを毎日使用します。Excelを具体的にテストします。」
- Excelを知っている候補者に公平
- 他のツール内のコンセプトを知っている候補者に不公平
- ツール習熟度が実際に必要な場合に適切
コンセプトベースの評価: 「データ分析とモデリングについて気にします。Excel、Google Sheets、またはPython(あなたが快適なもの)を使用できます。」
- ツール背景全体で公平
- 基礎となるスキルを測定します
- ツール選択が柔軟な場合に適切
両方とも有効です。どちらをしているかを明確にしてください。
妥当性と公平性は反対ではありません。彼らはリンクされています
テストは有効ですが不公平です(テストのハイパフォーマーは職務上でよくやります。ただし、テストは特定のグループに利点があります)。テストは公平ですが無効です(すべてのデモグラフィックは同様にパフォーマンスします。ただし、スコアは職務遂行を予測しません)。
最良の評価は両方です:
- 有効: 高スコアは職務の成功を予測します
- 公平: テストのパフォーマンスはデモグラフィックグループまたは背景と相関していません
両方を達成するには:
- 実際のスキルをテストする 職務上で使用される(妥当性)。
- バリアを削除する これらのスキルに関連しない(公平性)。
- 採用後に検証する (テストが実際にパフォーマンスを予測するかどうかを測定します)。
- デモグラフィックバイアスを確認する (特定のグループは体系的に低いスコアをして、それが職務遂行と一致しますか?)。
収集する必要があるデータ
同じ評価を通じて10人以上を雇う場合、追跡します:
| 候補者 | テストスコア | 職務での月数 | 職務遂行評価 | メモ |
|---|---|---|---|---|
| A | 82% | 6 | 4/5 | 強い学習者、主導権を握った |
| B | 76% | 6 | 3/5 | 確実なパフォーマー、期限を満たす |
| C | 68% | 6 | 2/5 | 複雑さに苦労、退社 |
| ... | ... | ... | ... | ... |
探すべき相関関係:
- テストスコアはパフォーマンス評価と相関していますか? (妥当性チェック)
- 特定の背景からの候補者は異なるパフォーマンス階層でクラスタリングされていますか? (公平性チェック)
- パフォーマンスを予測するものは他に何がありますか? (行動面接シグナル?過去の経験?)
このデータは、あなたの評価が機能するか、そして誰のためにそれが機能するかを教えてくれます。
ソフトウェアスキルテストについての不快な真実
ほとんどのオンライン評価プラットフォームは妥当性と公平性を主張しています。彼らが実際に職務遂行に対して検証されることはめったにありません。彼らは内部的な一貫性(テストを2回受けた場合、テストスコアは信頼できる)と表面的妥当性(テストは測定すると言うことを測定しているように見える)を測定しました。
しかし彼らは追跡していません:スコアが高い人は実際に彼らが採用される仕事で成功していますか?
そのデータなしに妥当性の主張を信頼することはできません。
あなた自身の検証を構築してください。あなたの評価を通じて人を雇ってください。彼らのパフォーマンスを追跡してください。調整してください。繰り返してください。2回の採用サイクル後、あなたはあなたのテストが実際に機能するかどうかを知るでしょう。
それまで、ソフトウェアスキルテストを有用なシグナルとして扱ってください、決定要因ではなく。高いスコアは高度な会話と現実的な職務プレビューを保証します。低いスコアはより深く調査する理由です、自動的な拒否ではなく。
最高の採用は複数のシグナルを組み合わせます:スキルテスト、行動面接、作業サンプル、および現在のチームメンバーとの会話。単一のテストは採用/不採用を決定しません。それは、あなたが有効で公平に留まる方法です。