Bewertungs-Design

Technische Bewertungen für Data Scientists, die nicht nur SQL-Trivia sind

ClarityHire Team(Editorial)2026-05-072 min read

Was "Data Scientist" tatsächlich in deiner Firma bedeutet

Bevor du die Bewertung designst, benenne die Rolle ehrlich. Das Label deckt wild unterschiedliche Jobs ab:

Analytics-lastige DS. SQL, Dashboards, Experiment-Analyse, Stakeholder-Kommunikation.
ML-lastige DS. Model-Training, Feature-Engineering, Evaluation, manchmal Produktion.
Research-lastige DS. Neuartiges Modeling, statistische Strenge, publikationsreife Arbeit.

Ein einzelner Test kann nicht alle drei messen. Auswählen, welcher diese Hire ist, ist die erste Entscheidung.

Bewertungs-Formen nach Rollen-Geschmack

Analytics-DS

Gib ihnen einen unordentlichen Datensatz (CSV, ~10MB, absichtlich mit Duplikaten, Nulls und einem subtilen Definition-Mismatch in einer Spalte). Stelle drei Business-Fragen wachsender Ambiguität:

Konkret: "Was ist die 7-Tages-Retentionsrate?"
Leicht ambig: "Hat sich Retention seit Launch von Feature X verändert?"
Offen: "Was in diesen Daten sollte das Produktteam wissen?"

Bewerte: SQL/Python-Korrektheit auf Q1, statistisches Reasoning auf Q2, Urteil und Kommunikation auf Q3.

ML-DS

Tabularer Datensatz mit Target. 90 Minuten. Notebook-Umgebung.

Bewerte: Feature-Engineering-Entscheidungen, Model-Evaluation-Methodologie (nicht finale Metrik — wie sie evaluierten), Bewusstsein für Leakage und Overfitting, Kommunikation von Trade-offs in einem kurzen Writeup.

Die Metrik zählt nicht. Eine Kandidatin, die 0,82 AUC mit sauberem Cross-Validation-Setup erreicht, schlägt eine, die 0,91 erreicht, indem sie das Target durch ein Feature leakt.

Research-DS

Ein kurzer Paper- oder technischer Vorschlags-Review. Oder eine Methodologie-Kritik einer fehlerhaften Analyse. Testet Strenge und Lesefähigkeit, beides wichtiger als Coding für diesen Geschmack.

Bewerten ohne Bias

Anonymisiere. Immer. Namen, Schulen, frühere Arbeitgeber — entferne sie vor Review.

Nutze rubric-verankertes Bewerten. ClarityHires Bewertungs-Service macht First-Pass-Rubric-Scoring mit einem LLM, anonymisiert; Reviewer sehen den KI-Score plus die Arbeit und überschreiben mit Grund. Für DS-Submissions spezifisch zeigt das Sachen wie fehlende Cross-Validation oder unsachgemäße Train/Test-Splits, die der Reviewer schnell verifizieren kann.

Was nie zu tun ist

Whiteboard-SQL-Fragen. Das Medium ändert den Skill — viele großartige Analystinnen können Joins nicht aus dem Gedächtnis schreiben, aber gegen eine echte DB fließend.
"Implementiere Gradient Descent von Grund auf." Testet Memorisierung einer Bachelor-Übung, nicht Job-Skill.
Take-Homes länger als 3 Stunden für Screen-Stage. Du zahlst in Pipeline-Breite.

Paare mit einem Interview

Was auch immer die Bewertung, folge mit einer 45-minütigen Diskussion über die Submission der Kandidatin. Der Walkthrough fängt fast alle Integritätsprobleme, die die Bewertung allein verpasst, und die Rubric für die Diskussion (Probing-Tiefe ihrer eigenen Entscheidungen) ist geradlinig.

data sciencetechnische bewertungsqlml-interview

Technische Bewertungen für Data Scientists, die nicht nur SQL-Trivia sind

Was "Data Scientist" tatsächlich in deiner Firma bedeutet

Bewertungs-Formen nach Rollen-Geschmack

Analytics-DS

ML-DS

Research-DS

Bewerten ohne Bias

Was nie zu tun ist

Paare mit einem Interview

Verwandte Artikel

Cybersecurity-Test-Validität und -Fairness: Bewertungen bauen, die funktionieren und skalieren

Beispielfragen für Emotional-Intelligence-Tests: Bewertete Szenarien erklärt

Validität und Fairness von Emotional-Intelligence-Tests: Was die Forschung zeigt