Обязанности: Исследование источников и разработка ETL процессов по загрузке данных из источников в DWH; Разработка и поддержка витрин; Участие в проектировании модели данных хранилища; Разработка, поддержка и оптимизация механизмов работы с DataLake;Разработка, поддержка и компонентов системы потоковой обработки данных. Требования: Глубокие знания Python (3.10+, threading, async и т.п.) в сфере работы с данными (PySpark, psycopg2, pandas и т.п.); Умение строить сложные SQL запросы и оптимизировать их. знание диалектов SparkSQL, PostgresSQL (другие - как плюс); Опыт реализации ETL/ELT процессов (оркестрация на Airflow); Понимание принципов построения DWH и/или DataLake; Понимание жизненного цикла Data-products; Работа с системами контейнеризации (Docker, Docker Compose, Kubernetes - как плюс); Ориентироваться в технологиях обработки больших данных. Будет плюсом: Знание классических схем построения хранилища данных, понимание достоинств/недостатков каждого подхода; Опыт работы с брокерами сообщений (предпочтительно Kafka), понимание механизмов стриминговой загрузки; Крайне желателен опыт построения Data Pipelines на Spark с использованием Airflow; Опыт работы с облачной инфраструктурой.
Похожие вакансии
Договорная
Москва. Станции метро: Беговая, Краснопресненская, Улица 1905 года
Цифровые привычки
Договорная
Москва. Станции метро: Беговая, Краснопресненская, Улица 1905 года
Rubytech
Договорная
Москва. Станции метро: Беговая, Краснопресненская, Улица 1905 года
РСХБ-Интех
Договорная
Москва. Станции метро: Беговая, Краснопресненская, Улица 1905 года
Синимекс
Договорная
Москва. Станции метро: Беговая, Краснопресненская, Улица 1905 года
ИЦ АЙ-ТЕКО