Обязанности:
Мы создаём самую большую рекомендательную систему в России, выпускаем приложения под Android и iOS, разрабатываем редактор видео и помогаем интересным блогерам найти новую аудиторию, а пользователям — интересные публикации. За этим стоят сложные алгоритмы, сотни тестов и сервис, который обрабатывает 150 тысяч запросов в секунду.
Наша команда управляет контентом Дзена, ВКонтакте и Одноклассников. Для этого у нас более 80 ML-моделей в концепции Human in the loop. Также используем ChatGPT и три краудсорсинговые платформы разметки данных.
Ищем аналитика, который поможет усовершенствовать систему работы с потоками данных и операционную эффективность всей системы разметки.
Задачи:выстраивать в Airflow оркестрацию потоков данных на разметку;
исследовать и визуализировать метрики контроля за пайплайнами;
находить точки роста для платформы разметки данных;
собирать, анализировать и интерпретировать информацию из разных источников с использованием математических моделей;
управлять «толпой» разметчиков через метрики, пайплайны и механики контроля качества;
развивать систему разметки с помощью LLM — ChatGPT и её аналогов.
Стек технологий: SQL для обработки больших данных, Python для работы в Airflow и расчёта метрик агентов разметки (ML-моделей, ChatGPT, Яндекс Толоки и так далее), Git — для CI/CD кода и пайплайнов, BI-системы — для визуализации метрик.
Требования:вы работали в Airflow и BI-решениях — Datalens, Superset, Power BI или другом;
имеете высшее техническое или математическое образование;
владеете Python для анализа данных — дружите с Pandas, Numpy и Catboost;
понимаете метрики ML-моделей классификации;
понимаете тервер и матстат для оценки метрики, которую невозможно посчитать точно;
стремитесь расширить свою экспертизу и строить ML-сервисы E2E — от понимания требуемых данных до мониторинга обученных моделей в проде.
Похожие вакансии