Технические оценки для специалистов по данным, которые не просто SQL trivia
Что "специалист по данным" на самом деле означает в вашей компании
Перед дизайном оценки, назовите роль честно. Ярлык охватывает дико разные работы:
- Analytics-leaning DS. SQL, dashboards, анализ экспериментов, communication заинтересованных сторон.
- ML-leaning DS. Training моделей, feature инжиниринг, evaluation, иногда productionization.
- Research-leaning DS. Novel моделирование, statistical строгость, publication-quality работа.
Один тест не может измерить все три. Выбор какой это hire для вас первое решение.
Формы оценки по flavour роли
Analytics DS
Дайте им messy датасет (CSV, ~10MB, intentionally с duplicates, nulls, и subtle definition несоответствие в одной колонке). Спросьте три бизнес вопроса растущей неясности:
- Конкретный: "Что 7-дневный retention rate?"
- Немного неясный: "Retention изменилась since feature X запущен?"
- Открытый: "Что в этих данных product team должна знать?"
Оценка: SQL/Python корректность на Q1, statistical рассуждение на Q2, суждение и communication на Q3.
ML DS
Табулярный датасет с target. 90 минут. Notebook окружение.
Оценка: feature инжиниринг choices, model evaluation методология (не final метрика — как они evaluated), осознание leakage и overfitting, communication trade-offs в коротком writeup.
Метрика не имеет значения. Претендент, который получает 0.82 AUC с clean cross-validation setup побеждает претендента, который получает 0.91 by leaking target через feature.
Research DS
Короткая бумага или техническое review proposal. Или критика методологии flawed анализа. Тесты строгость и reading навык, оба которые более важны, чем coding для этого flavour.
Оценка без bias
Anonymize. Всегда. Names, schools, prior employers — strip их перед review.
Используйте rubric-anchored оценку. Сервис оценки ClarityHire делает первый-pass rubric скоринг с LLM, anonymized; reviewers видят AI оценку плюс работу и override с reason. Для DS submissions специфично это раскрывает вещи как missing cross-validation или improper train/test splits reviewer может быстро verify.
Что никогда не делать
- Whiteboard SQL вопросы. Медиум меняет навык — многие отличные analysts не могут написать joins по памяти, но пишут их свободно против реальной базы.
- "Implement gradient descent from scratch." Тесты запоминание undergraduate упражнения, не job навык.
- Take-homes дольше 3 часов на stage скрининга. Вы платите в pipeline ширину.
Объедините с интервью
Какую бы оценку, следуйте 45-минутное обсуждение submission претендента. Walkthrough ловит почти все integrity проблемы, которые оценка одна misses, и rubric для обсуждения (probing глубина на их собственные choices) straightforward.