other

Senior Data Engineer

28 июня 2026

З/П не указана

Город: Москва

Флаувау

Тип занятости: Удаленная работа

Требуемый опыт: Опыт от 3 лет

Обязанности:

Кто мы и что строим Flowwow — международный маркетплейс подарков. Под ним работает Data Platform, которую мы построили с нуля: не «настроили managed-сервисы», а спроектировали и написали сами — от storage-слоя до AI-агентов поверх данных. Это lakehouse на Apache Iceberg + Trino, со Spark для тяжёлых вычислений, CDC-пайплайнами на Kafka/Debezium, всё в Kubernetes. Поверх этого — большой слой собственного кода: свой фреймворк Data Vault — моделирование хранилища как код, а не как набор ручных SQL-скриптов; обвязка вокруг Airflow — собственные операторы, хуки, генерация DAG'ов, инструменты тестирования пайплайнов; самописный lineage и инструменты наблюдаемости данных; AI-слой: агенты на LangGraph + MCP, которые расследуют инциденты, анализируют качество данных и помогают команде в рутине. Мы — команда инженеров, а не операторов ETL. Бо́льшая часть нашей работы — это Python-разработка: библиотеки, фреймворки, сервисы, которыми пользуется вся дата-вертикаль компании. Почему эта роль интересная Это позиция Senior DE с сильным уклоном в платформенную разработку. Не «писать пайплайны по тикетам», а проектировать инструменты, из-за которых пайплайны пишутся в разы быстрее — или не пишутся руками вообще. Вы будете работать с lakehouse-стеком на уровне внутренностей: оптимизация Trino-запросов и работа с коннекторами, maintenance Iceberg-таблиц (компакция, snapshot expiration, position/equality deletes — мы знаем эту боль изнутри), эволюция схем, REST-каталог. Это та глубина, которая редко встречается в продуктовых компаниях. И второе: мы AI-native команда. Claude Code и аналогичные инструменты — часть ежедневного рабочего процесса, а не эксперимент по пятницам. Мы строим harness-системы вокруг LLM: агентов с инструментами, автоматизацию code review, ассистентов для написания DAG'ов. Если вам близко состояние, когда ты проектируешь систему, а агент под твоим контролем выполняет рутину — вам у нас понравится. Что нужно делать: Развивать ядро платформы: фреймворк Data Vault, обвязку Airflow, lineage-инструменты — проектировать API, которыми будут пользоваться другие инженеры, и нести за них ответственность. Писать библиотеки и фреймворки на Python: клиенты к источникам, инструменты тестирования пайплайнов, обёртки над инфраструктурой. Чистый код, типизация, тесты, ревью — это у нас норма, а не аспирация. Работать с lakehouse на глубине: Iceberg maintenance и оптимизация layout'а таблиц, тюнинг Trino, Spark-джобы для тяжёлых трансформаций. Строить интеграции с источниками: OLTP-базы, REST/gRPC API, Kafka, файловые хранилища, SaaS-системы — и проектировать унифицированные интерфейсы, чтобы подключение нового источника занимало часы, а не недели. Внедрять AI в инженерные процессы: агенты для расследования инцидентов и анализа качества данных, ассистенты для DAG'ов и code review. У нас уже есть работающая агентная инфраструктура (LangGraph, MCP) — её можно и нужно развивать. Участвовать в архитектурных решениях: выбор технологий, дизайн интерфейсов между компонентами, вынесение best practices в команду. Делать code review и менторить менее опытных коллег. Наши ожидания: Промышленный опыт от 5 лет в data engineering или backend-разработке с сильным дата-уклоном: production-системы под реальной нагрузкой, ответственность за их эксплуатацию, а не только за написание кода. Python — главное требование. Уровень senior разработчика: ООП, проектирование API библиотек, типизация, тесты, опыт написания переиспользуемых компонентов, которыми пользовались другие люди. Lakehouse-стек на практике. Apache Iceberg (или Delta/Hudi с готовностью быстро переключиться): устройство таблиц, snapshots, компакция, schema evolution. Понимание, чем lakehouse отличается от классического DWH не на уровне статьи на Medium. Trino или другой MPP-движок: архитектура распределённого выполнения, чтение планов запросов, оптимизация, опыт работы с коннекторами. Apache Airflow глубоко: не только разработка DAG'ов, но и внутреннее устройство (scheduler, executors, метаданные), опыт написания собственных операторов и хуков. Apache Spark: PySpark, Spark SQL, понимание модели выполнения. SQL продвинутого уровня: оконные функции, CTE, оптимизация, чтение планов исполнения, работа с большими объёмами. Git, CI/CD — уверенно. Будет сильным плюсом Опыт разработки внутренних платформенных инструментов или фреймворков, которыми пользуются другие команды. AI-native подход к разработке: активное использование Claude Code / Codex и подобных инструментов, опыт построения harness-систем — агентов с инструментами, автоматизации через LLM, RAG. Kubernetes: деплой и эксплуатация дата-сервисов, Helm, понимание ресурсной модели. Опыт с CDC (Debezium, Kafka Connect) и стриминговыми пайплайнами. Знание форматов хранения (Parquet: row groups, статистики, predicate pushdown). Опыт работы с системами контроля доступа к данным (OPA, row-level security, маскирование).

Показать контакты

Имя не указано

Пожаловаться ID: 155477121

Похожие вакансии

Senior Data Engineer

Договорная

Москва

X5 Tech

Senior Data Engineer

Договорная

Москва

СБЕР

Senior data engineer

Договорная

Москва

HeadHunter

Senior Data Engineer

Договорная

Москва

Marfatech

Senior Data Engineer

Договорная

Москва

Reinvent Baltics

Senior Data Engineer

Договорная

Москва

LIFE PAY