Обязанности: Разрабатывать и сопровождать ETL процессы и инженерию данных на базе Spark как основного движка обработки и загрузки данных. Настраивать интеграции источников данных: подключение по JDBC к базам и стендбаям, а также стриминговые интеграции через Kafka, работу с топиками и JSON. Разрабатывать и поддерживать оркестрацию процессов в Airflow (DAG’и), используя Python в связке со Spark. Работать с большими объемами данных (от десятков тысяч строк до сотен миллионов и миллиардов), решать задачи оптимизации обработки. Разрабатывать и обслуживать слой данных на S3 и MinIO: работа с файловой системой, компрессией, охлаждением данных, обслуживанием и пересозданием таблиц, понимание партиционирования и форматов (в т.ч. JSON). Участвовать в алгоритмизации и оптимизации хранения и обработки данных в объектном хранилище (S3/MinIO) с учетом особенностей, отличных от классических реляционных СУБД вроде Greenplum. Требования: Опыт работы в области ETL и Data разработки. Уверенная работа с S3, опыт работы с MinIO. Опыт работы с MinIO. Уверенная работа со Spark. Понимание табличного формата Iceberg. Опыт интеграций с Kafka, умение работать с форматом JSON. Навыки разработки DAG’ов в Airflow. Владение Python на уровне для написания ETL процессов и служебного кода. Опыт работы с JDBC подключениями к БД и источникам данных. Опыт работы с ClickHouse (в том числе в окружении Arenadata ClickHouse). Условия: Оформление по ТК РФ в ИТ-аккредитованную компанию Годовой бонус до 15% от годового дохода Выстроенная система работы с персоналом: индивидуальный план развития, выделенный бюджет на обучение у сторонних подрядчиков, регулярные 1:1 с руководителем ДМС, включая стоматологию, страхование жизни и здоровья в поездках за рубеж. А еще можно застраховать родственников с корпоративной скидкой; Программа корпоративных скидок Best benefits Дополнительный оплачиваемый отпуск
Похожие вакансии