Обязанности:
О нас Мы продуктовая ad-tech команда. Обрабатываем большие потоки событий (показы, клики, конверсии), строим атрибуцию, антифрод и пользовательскую идентификацию.Работаем с высоконагруженным DWH и near-real-time аналитикой. Ищем data-engineer, который будет заниматься инженерной частью данных: пайплайнами, хранением, оптимизацией и надежностью. Чем предстоит заниматься DWH и хранение данных Проектирование таблиц и витрин (raw → stage → mart) Партиционирование, TTL, дедупликация Schema evolution Оптимизация стоимости хранения ETL/ELT пайплайны Разработка DAG’ов в Airflow Инкрементальные загрузки Исторические перерасчёты (backfill) Обработка late events Идемпотентные пайплайны и ретраи Обработка больших объемов данных Сложные join’ы по user identity Сборка цепочек событий Подготовка витрин для аналитики Работа с массивами и nested структурами Оптимизация Поиск узких мест в запросах Переписывание тяжелых SQL Минимизация чтения данных Оптимизация нагрузки на кластер Надежность данных Контроль качества данных Алерты и проверки Разбор инцидентов Поддержка production-витрин Наш стек ClickHouse Trino Iceberg / Data Lake S3-хранилище Airflow Python Parquet / JSON (Ожидаем понимание принципов, а не обязательно опыт со всеми технологиями) Требования Обязательно Уверенный SQL (join, window functions, агрегаты) Опыт разработки ETL-процессов Python для обработки данных Понимание партиционирования и инкрементальных загрузок Опыт работы с большими таблицами (десятки/сотни миллионов строк) Понимание идемпотентности, ретраев, backfill Будет плюсом ClickHouse / Presto / Trino Airflow Data Lake (Iceberg / Hive / Hudi) Event-based системы Highload или ad-tech проекты Условия Работа с большими объемами данных Влияние на архитектуру Инженерные задачи уровня production-DWH Гибкий формат работы Конкурентная зарплата (обсуждается по результатам интервью)Похожие вакансии
Data engineer / Инженер данных (Middle+)
От 190 000 до 240 000 руб.
Москва. Станции метро: Тверская
Riverstart (ООО Риверстарт)