複数のInterviewersで一貫してコーディングエクササイズをGradeする方法
あなたが実際に解決している問題
シニアエンジニアは候補者のSubmissionを読み、Hire を与えます。別のシニアエンジニアは同じSubmissionを読み、No Hire を与えます。彼らは両方正しくありません。そのうちの1人は個人的な味をスコアに漏らしており、それを判断と呼んでいます。
Inter-rater信頼性の欠如は、既に大量のRandomnessを持つHiring Funnelの最大の単一Randomnessソースです。また、非伝統的なBackground出身の候補者にDisproportionatelyに害を与えます。「私はちょうど雰囲気を得た」はInterviewerの自分のPastに対するPattern-matchingをクリーンマップしているためです。
ステップ1 — 行動Anchorを持つRubrics
「Code Quality:1~5」と言うRubricはRubricではありません。それはVibe番号としてレンダリングされています。Rubricは、各レベルが行動Anchorを持つとき、あなたが得るものです。候補者がスコアが3ではなく4であるようにしなければならなかった説明。
「問題分解」軸の例:
- 5 — コードを書く前に正しいSub-problemsに名前を付けます。Interviewerにこれを彼ら自身の言葉で再問い合わせます。Unprompledでキャッチエッジケース。
- 3 — タイプを開始すると、正しく分解します。1つのEdge Caseを逃しますが、尋ねられたときにそれに対処します。
- 1 — 彼らが問題を理解する前にコーディングを開始します。2回後ろに操舵する必要があります。
適切なRubricテンプレートには、このような4~6軸があります。ポイントは、2人のInterviewersが同じTranscriptを読むと、同じレベルに到達する可能性があるということです。Anchorsは観察可能だからです。
ステップ2 — Calibration Sessions、毎月
先月から6つのSubmissionを引き出します。名前をストリップします。各Interviewerは彼らを独立して評価し、グループが軸ごとにスコアを比較します。議論は製品で、平均ではありません。
あなたが探しているのは:
- 分散が高い軸。 「通信」スコアが野生に揺れる場合、あなたのAnchorsは行動的にはんです。それらを書き直します。
- システムとして高またはLowをGradeするInterviewers。 悪い人ではありません。単なるCalibrationシフト。修正はFeedbackで、削除ではありません。
- 文化的ドリフト。 8ヶ月前に「3」と見なされていたのは、BarがMovedしたので今日「4」かもしれません。それは問題ありませんが、それを明示的にしてください。
これを小さいチーム、より大きいチームと一緒に毎月実行します。四半期をスキップして、分散が戻ってきます。
ステップ3 — Anchoring Biasを殺してください
何も費用がかからず、多くを節約する2つの反Anchors:
- Debriefsの前に独立してスコアします。 各Interviewerは、他のInterviewerが考えたことを聞く前に、彼らのRubricスコアを書きます。次に比較します。これはシステム全体で単一の最もハイレバレッジの介入です。
- 可能な場合は匿名にします。 非同期コードSubmissionの場合、レビュアーのビューから名前、写真、学校、Prior-Company Fieldsをストリップします。同じ理由で、Grading Viewはデフォルトで匿名化されたモード。ピアレビューされたジャーナルは。
ステップ4 — AI-Graderではなく、CalibrationチェックとしてのペアAI
Well-tunedなLLM Graderは、Humansの方法でSubmissions全体で一貫しています。それをNoise Floor として使用します:あなたのHuman Reviewerが4をCorrectnessでスコアし、AIが2をスコアした場合、それはUseful Signalです。見てください。不同意はしばしば、ループで最も有報のArtefactです。
AIスコアで自動Rejectをしないでください。Reviewerがスコアする前に、それを表示しないでください。使用してくださいPost-hoc、衛生チェック。
これはClarityHireで何のように見えるか
Grading Viewは候補者のSubmission、Behavioral Anchorsを持つRubric、およびReviewerがコミットする前にHiddenされる(オプション)AI生成初回Passスコアを示しています。Interviewer-Calibration Viewは時間をかけて軸あたりInter-Rater分散を表面化し、候補者がこれを行う前にどの軸がドリフトしているかを確認できます。
これをStructured Scorecard下流とペアにし、同じCalibration規律は「このSubmissionがパス」から「この人を採用する」まで続きます。
TL;DR
一貫性は、行動的なRubric Anchors、Debriefsの前の独立したスコアリング、毎月のCalibration Sessions、およびAI-Graderではなく衛生チェック(決してGraderではない)から来ます。これらのいずれかをスキップして、あなたのCodeインタビューはコイン反転になり、Extra Stepsがあります。