Обязанности:
Вместе с нами ты будешь: выполнение функциональных обязанностей в рамках проекта по Миграции Платформ Данных (Arenadata Hadoop) обеспечение загрузки необходимых данных в Data Lake или необходимые витрины данных проектирование и разработка, тестирование и внедрение ETL процессов, используя ETL Framework и конвейер данных реализация различных интеграций в гетерогенной среде с помощью Python/Spark оптимизация существующего кода и используемых платформ конфигурация потоков данных из систем источников, их мониторинг, своевременную модификацию, оптимизацию оптимизация конвейера данных и ETL-процессов для поддержания процессов проверки качества данных контейнеризация процессов загрузки/выгрузки данных в Data Lake Какие знания и навыки для нас важны: опыт разработки на Java / Python / Spark / Scala понимание принципов модели распределенных вычислений опыт разработки ETL / Self service ETL процессов по наполнению данными Data Lake, формирование витрин данных на Hadoop желателен опыт решения ETL/data engineering задач опыт реализации интеграции в гетерогенных средах навыки работы с системами контроля версий / репозиториями кода на основе Git успешный опыт работы в команде от 7 человек понимание методологий Agile/Scrum знание Unix/Linux, навыки работы в shell Будет преимуществом: опыт работы в роли разработчика на стеке Hadoop от 2-х лет опыт разработки приложений с использованием инструментария экосистемы Hadoop (Spark streaming, Hbase, Spark SQL, KAfka, Hive, Impala, Hue и т.д.) опыт развертывания Linux серверов/ контейнеров, использования скриптовых языков (Bash) базовые знания работы kerberos знание и опыт работы с инструментами DevOPS