評価設計

エッセイ評価のためのAI採点:それが役立つ場所と傷つく場所

ClarityHire Team(Editorial)4 min read

LLMが何を採点するか

モダンLLMは驚くほど得意です:

  • ルーブリックカバレッジチェック。 「候補者は5つの質問すべてに対処しましたか?」 簡単に答えられます。
  • 表面レベルの品質。 文法、構造、長さ、引用された証拠—すべて確実にスコアされます。
  • 提出全体での一貫性。 提出#50の人間採点者と異なり、LLMの基準は提出#500と同じ提出#1です。
  • 第1パスの観測。 人間のレビュアーが確認する注目すべき強みと弱みの表面化。

これらのタスクでは、LLM採点は人間の上書きと組み合わせた場合、公平性の損失なしに60~80%レビュー時間を確実に削減します。

LLMが何を採点しているか

  • ドメイン深度。 シニアシステムエンジニアリングエッセイを読むLLMは、建築上の選択が正しいかどうかを確実に判断できません。 自信を持って見ている見当違いを生成します。
  • 独自性と洞察。 LLM過多報酬流暢な汎用回答と過度に短いinsightful人のを割引します。
  • トーンと判断。 「この候補者が過信しているか、適切に決定的か?」 人間はこれを受け取ります。 LLMはそうではありません。
  • 候補者の身元が漏える可能性がある何でも。 履歴書、名前、大学の関係の偏見LLM判断を測定可能にします。

機能するパターン

  1. AIが最初のパス。 LLMはルーブリック次元および観測リストごとにドラフトスコアを生成します。 最初に入力を匿名化します。
  2. 人間が意思決定者として。 レビュアーは候補者の仕事、AI出力を読み、確認またはオーバーライドしています。 ルーブリックにはゴム割りするのではなく、証拠が必要なアンカーがあるため、関わるように強制されます。
  3. 定期的に監査. 各月人間オーバーライドされたケースのパーセンテージをサンプルしてください。 LLMが一貫した方向でオーバーライドされている場合(例:ジュニア候補者を厳しく採点)、プロンプトをチューニングします。

してはいけないこと

  • AI スコア単独に基づいて自動拒否します。
  • AI スコアを最初に人間のレビュアーに表示*します。 彼らは独立して採点し、比較します。 アンカリングは本物です。
  • 極端な変動を可能にするプロンプトを使用したアセスメントでAI採点を使用します—オープンエンドのクリエイティブなタスク。 そこでは、分散は目的の敗北者です。

ClarityHireの採点サービスは、デフォルトではエッセイとテイクホームの提出のためにこのパターンを実装しています。 レビュアーはルーブリック、候補者の仕事、およびAI出力を見て、最終スコアを提出するにはオーバーライドが必要です。

AI採点エッセイ評価ルーブリック自動化

関連記事