Обязанности: Разработка и поддержка ETL-процессов на базе Apache Hadoop (Hive, Spark, возможно, HBase, Hue для обработки и анализа больших объемов данных) Разработка и построение витрин данных (SQL, PL/SQL, PostgreSQL); Реализация логики обработки и обогащения данных. Интеграция с Apache Kafka: чтение, обработка и запись данных в топики. Взаимодействие с целевыми системами для передачи обработанных данных. Участие в проектировании архитектуры витрин данных. Оптимизация производительности и мониторинг пайплайнов. Требования: Опыт коммерческой разработки на Java от 2 лет. Практический опыт работы с реляционными БД (PostgreSQL), приветствуется опыт с функциями, хранимыми процедурами, триггеры, OLAP-кубы); Практический опыт работы с экосистемой Hadoop: Hive, Spark от 2 лет. Опыт работы с Apache Kafka: понимание принципов работы продюсеров и консьюмеров. Понимание принципов построения ETL/ELT-процессов. Знание SQL и опыт работы с базами данных, оптимизации запросов Опыт работы с системами контроля версий (Git). Умение работать в команде, ответственность, желание развиваться в Big Data. Будет плюсом: Опыт работы с CI/CD (Jenkins, GitLab CI). Знание Scala или Python для обработки данных. Опыт работы с Docker/Kubernetes. Понимание принципов Data Governance и Data Quality. Опыт разработки приложений на микросервисной архитектуре; Опыт разработки высоконагруженных, многопоточных приложений. Условия: Возможность профессионального и карьерного роста в компании, возможность поучаствовать в разных проектах; Опыт работы в распределенной команде профессионалов; Уровень заработной платы обсуждается индивидуально; Возможность работать удаленно по Москве, Санкт-Петербургу, Сочи, Нижнему Новгороду.
Похожие вакансии