Обязанности:
Мы создаём для клиентов продукты и сервисы на основе предиктивных моделей с использованием ML и собственной платформы обработки больших данных. Задачи: создавать новые надёжные и улучшать существующие пайплайны, обрабатывающие терабайты данных; разрабатывать новые витрины данных для аналитики и построения предиктивных моделей на основе многопетабайтного хранилища и множества источников; интегрировать данные из новых источников с продакшен-системами, решающими задачи near real-time обработки данных, и ML-сервисами; участвовать в проектировании архитектуры новых сервисов; заниматься изучением новых релевантных технологий, а также их внедрением в существующие сервисы. Требования: опыт работы с реляционными БД, понимание SQL, умение составить нетривиальный запрос (JOIN'ы, подзапросы и так далее); знание Python на продвинутом уровне; навыки работы с Bash, Git, Linux; владение английским языком как минимум на уровне чтения документации; желательно, но не обязательно: ClickHouse (знать отличия и преимущества колоночных БД), Hadoop/MapReduce/Hive/Spark (знать основные концепции), средства оркестрации задач (Jenkins, Airflow, Luigi).