Обязанности:
В подгруппу инфраструктуры данных требуется инженер данных для выполнения задач по изменению и развитию инфраструктуры данных в соответствии с общими изменениями в компании, включая переход на собственную схему хранения данных. Вам предстоит: Построение и поддержка ETL/пайплайнов: Разработка, оптимизация и мониторинг для гарантированной доставки данных. Развитие сервисной модели для аналитиков: Предоставление качественных, документированных и актуальных данных через витрины и инструменты автоматизации, сокращая время на рутинные запросы. Повышение надежности и прозрачности: Помощь во внедрении единых стандартов на тестирование, мониторинг и алертинг для всех data-процессов. Технологический стек проекта: Оркестрация: Apache Airflow. Обработка данных: SQL, Python (Pandas), Apache Spark (PySpark). Аналитические СУБД: ClickHouse, Vertica, Trino Инфраструктура и инструменты: Git, Docker, Hadoop (HDFS, Hive), Kafka. Язык программирования: Python (Pandas, requests, асинхронное программирование). Мы ожидаем: Знание SQL (CTE, оконные функции, оптимизация запросов). Базовые навыки профилирования и оптимизации SQL-запросов (чтение explain plan, понимание индексов). Понимание принципов построения ETL/ELT-пайплайнов и опыт работы с Apache Airflow. Базовые знания Python для целей обработки данных (Pandas, PySpark). Опыт работы с Git. Понимание концепций распределенных систем и работы с большими данными (архитектура Spark, Kafka, Hadoop). Будет преимуществом: Практический опыт работы с Apache Kafka. Знание специфики ClickHouse (движки таблиц, особенности кластерной работы). Опыт работы с Vertica/Trino. Навыки работы с Docker и оркестраторами (Rancher/Kubernetes). Понимание принципов работы gRPC. Привычка к ведению документации, понимание принципов Data Catalog (что такое глоссарий, метаданные, lineage).Похожие вакансии
Руководитель команды инженеров данных (направление качества пунктов выдачи)
Договорная
Москва. Станции метро: Деловой центр
Ozon