Обязанности:
Яндекс Еда — это сервис доставки еды из ресторанов и магазинов. Наша цель — создать лучший фудтех-продукт на рынке, и для этого нам предстоит решить множество непростых и интересных задач. Мы расширяем команду и ищем дата-инженеров в команду DWH. Служба разработки платформы управления данными (DMP) формирует актуальные и полные данные для сервиса. Нам нужны инженеры данных, которые вместе с аналитиками будут проектировать и оптимизировать сложные расчёты и алгоритмы, а также разрабатывать инструменты для сотен бизнес-пользователей. Какие задачи вас ждут Оптимизация ETL-процессовВам предстоит работать с большими массивами данных, выявлять узкие места в пайплайнах обработки и предлагать решения для их ускорения, решать задачи по оптимизации SQL-запросов, настройке распределённых вычислений. Обработка данныхВы будете преобразовывать сырые данные в структурированный формат для дальнейшего анализа. Это включает очистку данных, работу с пропусками и аномалиями, а также создание признаков для моделей и отчётов. End-to-end-управление даннымиВы будете отвечать за полный цикл работы с данными: от их извлечения из источников до трансформации, хранения и конечного использования в аналитике или ML-моделях. Поддержка и развитие data-решенийВы будете поддерживать существующие ETL-процессы, оперативно исправлять инциденты и дорабатывать инфраструктуру для повышения отказоустойчивости. Также в зоне ответственности — документирование процессов и настройка мониторинга качества данных. Мы ждем, что вы Работали с отладчиками и верификаторами Уверенно программируете на Python Разбираетесь в классических алгоритмах и структурах данных Хорошо знаете SQL и понимаете устройство современных реляционных баз данных Понимаете и можете объяснить необходимость непрерывной интеграции и непрерывной доставки (CI/CD), преимущества использования Git и код-ревью Будет плюсом, если вы Руководили стажёрами или начинающими специалистами Работали по методологии Agile Участвовали в проектировании хранилищ данных Создавали сложные высоконагруженные процессы ETL и ELT (отдельным плюсом будет знание инструментов Luigi и Airflow) Разрабатывали процессы обработки сложных событий (CEP) во времени, приближенном к реальному (Kafka Streams, Spark, Flink) Знакомы со стеком технологий Hadoop, Spark, Hive Работаете со специализированными аналитическими базами данных (Greenplum, Vertica, ClickHouse, Teradata) и аналитическими инструментами на базе Python (Jupyter, Pandas, SciPy, Matplotlib, Bokeh) Программируете на C++Похожие вакансии
От 100 000 руб.
Москва. Станции метро: Деловой центр, Тестовская, Москва-Сити
Жукова Надежда Олеговна
Договорная
Москва. Станции метро: Деловой центр, Тестовская, Москва-Сити
Сбербанк России, ПАО
Договорная
Москва. Станции метро: Деловой центр, Тестовская, Москва-Сити
Цифровые привычки
От 150 000 руб.
Москва. Станции метро: Деловой центр, Тестовская, Москва-Сити
TrueConf