Новый долгосрочный проект, который готовится к стадии развития IT-продукта, а сейчас на аналитическом этапе. Создаем то, что поможет оптимизировать ассортимент компании.В команде есть Product Owner, аналитик, а также архитекторы, которые уже в процессе настройки и создания приложений, улучшения веб сервиса.Это отличная возможность, работая в большой компании, заниматься продуктом, который прямо сейчас формируется в реальном времени. Обязанности: Обеспечить сбор и организовать процесс загрузки данных в аналитические системы из различных источников; Подготовка, очистка и предобработка данных из внешних источников, построение агрегатов; Разрабатывать процедуры формирования детального слоя данных и слоя витрин DataLake на GreenPlum (это как концепция); Реализовывать мониторинг разработанных процессов обработки данных (Grafana, Prometheus); Документировать свою работу в Yandex.Wiki; Обеспечить транспорт данных из источников (чековая статистика, данные о количестве товарного запаса) их хранение и преобразование; Проработать архитектуру транспорта и хранения данных совместно с архитекторами и владельцами дата-платформы, в т.ч. предоставить обзор разных возможных конструкций с описанием их плюсов и минусов; Выстраивать оптимальную структуру хранения данных (партиции, дистрибуции и т.п.); Оптимизировать SQL-запросы. Требования: Знания принципов работы БД, построения Хранилищ Данных; Опыт разработки ETL процессов (NiFi, AirFlow); Опыт работы с высоконагруженными распределёнными системами обработки и хранения данных, очередями (Kafka); Отличное знание SQL. Желательные: опыт разработки на Python или Java, умение работать с MongoDB и понимание принципов работы REST API;знание sqlalchemy. Условия: Официальное оформление в аккредитованную IT-компанию; Система ДМС; Возможность обучения в рамках индивидуальной программы обучения, повышения квалификации и развития; Участие в крупных отраслевых мероприятиях; Погружение в корпоративную культуру; Корпоративные скидки от компаний-заказчиков и многое другое.