Technische Bewertungen für Data Scientists, die nicht nur SQL-Trivia sind
Was "Data Scientist" tatsächlich in deiner Firma bedeutet
Bevor du die Bewertung designst, benenne die Rolle ehrlich. Das Label deckt wild unterschiedliche Jobs ab:
- Analytics-lastige DS. SQL, Dashboards, Experiment-Analyse, Stakeholder-Kommunikation.
- ML-lastige DS. Model-Training, Feature-Engineering, Evaluation, manchmal Produktion.
- Research-lastige DS. Neuartiges Modeling, statistische Strenge, publikationsreife Arbeit.
Ein einzelner Test kann nicht alle drei messen. Auswählen, welcher diese Hire ist, ist die erste Entscheidung.
Bewertungs-Formen nach Rollen-Geschmack
Analytics-DS
Gib ihnen einen unordentlichen Datensatz (CSV, ~10MB, absichtlich mit Duplikaten, Nulls und einem subtilen Definition-Mismatch in einer Spalte). Stelle drei Business-Fragen wachsender Ambiguität:
- Konkret: "Was ist die 7-Tages-Retentionsrate?"
- Leicht ambig: "Hat sich Retention seit Launch von Feature X verändert?"
- Offen: "Was in diesen Daten sollte das Produktteam wissen?"
Bewerte: SQL/Python-Korrektheit auf Q1, statistisches Reasoning auf Q2, Urteil und Kommunikation auf Q3.
ML-DS
Tabularer Datensatz mit Target. 90 Minuten. Notebook-Umgebung.
Bewerte: Feature-Engineering-Entscheidungen, Model-Evaluation-Methodologie (nicht finale Metrik — wie sie evaluierten), Bewusstsein für Leakage und Overfitting, Kommunikation von Trade-offs in einem kurzen Writeup.
Die Metrik zählt nicht. Eine Kandidatin, die 0,82 AUC mit sauberem Cross-Validation-Setup erreicht, schlägt eine, die 0,91 erreicht, indem sie das Target durch ein Feature leakt.
Research-DS
Ein kurzer Paper- oder technischer Vorschlags-Review. Oder eine Methodologie-Kritik einer fehlerhaften Analyse. Testet Strenge und Lesefähigkeit, beides wichtiger als Coding für diesen Geschmack.
Bewerten ohne Bias
Anonymisiere. Immer. Namen, Schulen, frühere Arbeitgeber — entferne sie vor Review.
Nutze rubric-verankertes Bewerten. ClarityHires Bewertungs-Service macht First-Pass-Rubric-Scoring mit einem LLM, anonymisiert; Reviewer sehen den KI-Score plus die Arbeit und überschreiben mit Grund. Für DS-Submissions spezifisch zeigt das Sachen wie fehlende Cross-Validation oder unsachgemäße Train/Test-Splits, die der Reviewer schnell verifizieren kann.
Was nie zu tun ist
- Whiteboard-SQL-Fragen. Das Medium ändert den Skill — viele großartige Analystinnen können Joins nicht aus dem Gedächtnis schreiben, aber gegen eine echte DB fließend.
- "Implementiere Gradient Descent von Grund auf." Testet Memorisierung einer Bachelor-Übung, nicht Job-Skill.
- Take-Homes länger als 3 Stunden für Screen-Stage. Du zahlst in Pipeline-Breite.
Paare mit einem Interview
Was auch immer die Bewertung, folge mit einer 45-minütigen Diskussion über die Submission der Kandidatin. Der Walkthrough fängt fast alle Integritätsprobleme, die die Bewertung allein verpasst, und die Rubric für die Diskussion (Probing-Tiefe ihrer eigenen Entscheidungen) ist geradlinig.