Обязанности:
В команде разработывается ML-система, детекирующая Out-of-stock ситуации и аномалии в продажах, которая в near-real-time выявляет потенциальные проблемы с наличием товара и отправляет предупреждения сотрудникам магазинов для оперативной проверки и выкладки. 🔹 Задача Мы строим end-to-end пайплайны, которые собирают данные из разных источников (онлайн и оффлайн-продажи, ERP, внешние API), очищают, трансформируют и подготавливают их для моделей машинного обучения (бустинг и нейронные сети). От качества этих пайплайнов зависит точность прогноза и миллионы управленческих решений в закупках и логистике 🔹 Что предстоит • Разрабатывать и оптимизировать Spark-пайплайны для обработки данных в масштабе (200+ млн строк ежедневно) • Настраивать хранение и доступность данных в DWH • Автоматизировать интеграцию данных: продажи, акции, цены, остатки, погода, календари • Работать в связке с Data Science-командой, обеспечивая стабильный и качественный поток данных для моделей • Участвовать в развитии платформы прогнозирования спроса, делая её более надёжной, масштабируемой и удобной 🔹 Наш стек • PySpark{2,3} / Spark SQL • Hadoop / Hive / Trino / S3 / clickhouse / postgres/ greenplum • Airflow • Python3 • Docker, YARN / k8s • pytestПохожие вакансии