Обязанности:
Проект по разработке, оптимизации и тестирования единого централизованного механизма загрузки (репликации) из реляционных/нереляционных источников данных в хранилище ODS реализованном в кластере Hadoop (Hive). Проект включает в себя функционал для создания компонентов реплики (структуры таблиц, параметры загрузки и тд) и непосредственно ETL-инструмента для выполнения загрузки (ядро) Твои задачи: Разработка/доработка ETL процессов в соответствии с требованиями ТЗ Анализ источников данных (PostgreSQL, Oracle, MS SQL, плоские файлы) Разработка/доработка функционала для создания компонентов реплик по требованиям ТЗ (Python 3.6 + Jenkins) Разработка/доработка ядра ETL процессов с использованием Python 2.7. Конфигурация потоков данных из систем источников, их мониторинг, модификация и оптимизация Оркестрация процессов обработки данных с использованием Oozie Workflow & Hue Покрытие кода тест-кейсами. Мы ждем от тебя: Опыт разработки ETL процессов Понимание работы и опыт использования основных реляционных SQL хранилищ: PostgreSQL, Oracle, MS SQL Понимание принципов и опыт применения чистой архитектуры и других принципов проектирования (напр, SOLID). Опыт настройки SSL/TLS сертификатов для подключения к СУБД Опыт создание дашбордов (панелей) в Grafana, используя источник Prometheus Опыт построения Jenkins CI/CD на языке Groovy Опыт написания юнит-тестов с использованием библиотек Unittest, Pytest Что мы обеспечим: Поездки на конференции и тренинги за счет компании, внутренние семинары, внутренние митапы, мы очень любим учиться новому Технику для комфортной работы Сессия профессионального развития персонала дважды в год, результатом которой является план индивидуального развития каждого сотрудника Сообщества по интересам: Лига Спорта, Лига Экспертов, Cyber Лига , а также возможность организовать свое сообщество и получить поддержку от компании Корпоративная культура со своими ценностями и традициями, в которой каждый чувствует себя частью команды