Обязанности:
Основная задача команд кластера Облако данных – реализация ETL-процессов взаимодействия Банка с внешними источниками данных (загрузка/выгрузка) с использованием инфраструктуры Банка и Облачных сервисов, а также настройка и поддержка ETL-процессов внутри Банка. Вместе с нами ты будешь: Реализация ETL-процессов на Python и Spark на основании имеющейся документации; Проведение ревью кода других разработчиков; Реализация интеграции по получения данных из источников вида: REST API, SOAP, FTP, S3, парсинг сайтов, XLS, XML и прочих текстовых форматов; Построение витрин данных в Hadoop; Разработка и поддержка внутренних инструментов; Разработка проверок качества загружаемых данных. Какие знания и навыки для нас важны: Опыт разработки на Python; Опыт проектирования и разработки ETL-процессов на базе Apache Airflow; Опыт работы с интерфейсами взаимодействия: REST API, SOAP; Опыт работы с брокерами сообщений: RabbitMQ, Kafka; Уверенные знания SQL; Опыт работы с каким-либо дистрибутивом Hadoop (Cloudera, Arenadata, Hortonworks, Apache и т.п.). Будет плюсом: Понимание подходов к оптимизации производительности Python и Spark приложений; Опыт работы с Яндекс.ClickHouse; Опыт работы с OpenSearch, ElasticSearch; Опыт разработки микросервисов.