Обязанности:
UNITED — команда, которая уже более 5 лет специализируется на помощи организациям в их цифровой трансформации.Наш клиент - международная ИТ-компания, которая разрабатывает решения по повышению бизнес-процессов своих клиентов.Сейчас находимся в поиске "ETL разработчика" для работы на 2-х интересных проектах.Чем предстоит заниматься: Организацией ETL-процессов, выгрузки данных Apache Hudi таблиц из S3 в ODS-слой на Greenplum; Разработкой трансформации данных ODS-слоя в DDS-слой; Имплементацией различных CDC-методов (инкрементальный JOIN с двумя наборами данных, вычисление хэша с последующим diff); Разработкой plpgsql-функций или аналогичной логикой на Spark для трансформации данных, на основе логике существующего Python/T-SQL кода (MSSQL); Разработкой ad-hoc аналитических запросов под PostgreSQL/Greenplum; Разработкой DataQuality-тестов на скриптовом ETL (Python, Java или Scala); Работой с AirFlow-операторами, разработкой DAGs; Мониторингом и поиском проблемных мест при эксплуатации ADB (Greenplum). Пожелания к кандидату: Понимание различий PostgreSQL & Greenplum; Понимание механизма работы QE/QD (query executor & query dispatcher), и как исполняется SQL-запрос в Greenplum-кластере, включая планы запросов (redistribute, broadcast, gather motions); Понимание механизма дистрибьюции данных на сегмент-инстансах Greenplum, и как исправлять перекосы данных (skews); Понимание разницы механизмов работы Heap & AOP (append-optimzed) таблиц в Greenplum, включая понимание “ограничений” колоночного формата хранения данных; Понимание различий между логическими моделями: звезды, снежинки и DataVault; Опыт с технологическим стеком: Python, Postgres, Greenplum. Готовы предложить: Удалённая работа либо гибрид/офис, по вашему усмотрению:) Отсутствие бюрократии; ДМС: компании важно, чтобы сотрудники развивали свои компетенции и были здоровы; Разнообразную корпоративную жизнь: от походов в музеи до совместных путешествий и rave-вечерин; Гибкое время начала рабочего дня.