Обязанности:
Мы развиваем современную платформу данных для аналитики и принятия бизнес-решений. В нашей команде уже сформирована зрелая культура работы с данными и собственное DWH, которое развивается более 5 лет. Мы ищем Data Engineer / Analytics Engineer, который поможет развивать платформу данных, создавать надежные пайплайны и превращать данные в полезные бизнес-инсайты. Чем предстоит заниматься: разрабатывать и развивать платформу данных на базе dbt, Airflow, ClickHouse и S3 проектировать и поддерживать модели данных по слоям raw / stage / mart разрабатывать факты, измерения, витрины данных и бизнес-метрики создавать и поддерживать аналитические дашборды в Apache Superset взаимодействовать с бизнес-заказчиками и помогать находить инсайты в данных документировать потоки данных и модели в dbt Docs, OpenMetadata и Confluence развивать практики Data Quality и повышать доверие к данным настраивать мониторинг и алертинг в Grafana и Prometheus поддерживать потоковую обработку данных на базе Kafka Connect, Debezium, Redpanda и Spark Structured Streaming принимать участие в доработке Docker-образов сервисов платформы данных и взаимодействовать с DevOps-командой по вопросам эксплуатации в Kubernetes Наш стек ClickHouse dbt Apache Airflow Apache Superset PostgreSQL, MS SQL, Oracle, MongoDB Kafka Connect, Debezium, Redpanda Spark Structured Streaming Docker, Kubernetes GitLab CI/CD Grafana, Prometheus OpenMetadata Jira, Confluence Что мы ожидаем: Обязательные требования уверенное знание SQL: JOIN, CTE, оконные функции, оптимизация запросов хорошее владение Python для ETL/ELT-разработки (pandas, Polars, Arrow) практический опыт работы с ClickHouse опыт разработки ETL/ELT-пайплайнов на Airflow, dbt или Python понимание принципов построения DWH и моделирования данных опыт работы с BI-инструментами (Apache Superset, Power BI, Tableau, Metabase и др.) понимание архитектуры и особенностей Airflow и Superset уверенные знания Docker, базовое понимание Kubernetes опыт работы с Git и CI/CD опыт сопровождения решений в production-среде Будет преимуществом опыт работы со стримингом данных и Kafka-экосистемой знание CDC-подходов и инструментов Debezium/Kafka Connect понимание архитектуры кластерного ClickHouse опыт работы с каталогами данных (OpenMetadata, DataHub) понимание современных форматов хранения данных (Iceberg, Delta Lake, Parquet, ORC, Avro) опыт работы с S3-совместимыми хранилищами навыки работы с Linux/Bash наличие pet-проектов или активного GitHub-профиля опыт использования AI-инструментов для разработки Что мы предлагаем: полностью удаленную работу участие в развитии зрелой платформы данных и современного технологического стека команду специалистов по аналитике, Data Engineering, BI и ML Agile-процессы: Jira, Confluence, спринты, демо и ретроспективы возможность профессионального роста в направлении Data Engineering и Analytics Engineering Дополнительно для финального этапа отбора предусмотрено тестовое заданиеПохожие вакансии