other

Data Engineer/Архитектор платформы данных

Более недели назад

З/П не указана

Город: Москва. Станции метро: Полежаевская, Зорге, ЦСКА

Транснефть-Технологии

Тип занятости: Полная занятость

Требуемый опыт: Опыт от 6 лет

Обязанности:

Транснефть-Технологии оказывает IT-услуги организациям системы «Транснефть» в области внедрения, технической эксплуатации и сопровождения корпоративных информационных систем и IT-инфраструктуры. Приглашаем в команду Data Engineer / Инженера данных.Мы строим корпоративную платформу для работы с данными на базе открытого программного обеспечения, и нам нужен специалист с хорошими знаниями Apache Spark и опытом работы с большими данными, чтобы присоединиться к нашему динамичному и инновационному проекту. Ты будешь отвечать за сбор, трансформацию, подготовку и проверку данных, обеспечивая их доступность и качество, а также занимается интеграцией источников данных, архитектурой хранения данных и оптимизацией, обеспечением эффективного использования баз данных. Задачи: ​​​​​​​Разработка и оптимизация ETL процессов для обработки больших данных с использованием Apache Spark. Разработка высокопроизводительных распределенных вычислений и оптимизация задач на платформе Spark (в том числе Spark SQL, Spark Streaming). Построение и поддержка дата-центров на основе S3-Minio и других облачных решений. Интеграция и работа с хранилищами данных ClickHouse, GreenPlum. Управление каталогом данных с использованием OpenMetadata. Управление метаданными с использованием Apache Hive Metastore. Работа с колоночными форматами файлов ORC и Parquet, написание сложных SQL-запросов. Проектирование и управление моделями данных с использованием DBT (Data Build Tool), управление пайплайнами данных. Требования: ​​​​​​​ Уверенные знания Apache Spark, включая Pyspark, Spark SQL, Spark Streaming, MLlib). Опыт работы с CDC на базе Dbezium или Airbyte. Опыт оптимизации производительности Spark- jobs, настройки кластеров Spark (Tuning, Partitioning, Caching). Опыт работы с S3 совместимыми хранилищами больших данных (Minio), Понимание работы хранилищ метаданных Apache Hive Metastore. Опыт работы с колоночными аналитическими базами данных ClickHouse, GreenPlum. Уверенные знания SQL и умение писать сложные запросы. Опыт работы с распределенными вычислительными системами и технологиями обработки больших данных. Знание принципов архитектуры данных и разработки ETL процессов. Опыт работы с аналитическими базами данных и хранилищами больших данных. Знание процессов управления моделями данных и проектирования схем данных с использованием Dbt будет преимуществом. Опыт работы с каталогом данных (OpenMetadata) также будет плюсом. Мы предлагаем: Возможность поучаствовать в масштабном, интересном проекте в команде профессионалов. Работа в стабильной, развивающейся компании, высокий уровень дохода (оклад +ежемесячные и годовые премии). Широкий социальный пакет: ДМС (+стоматология), доплата к отпуску, частичная компенсация санаторно-курортного лечения и отдыха, скидки на фитнесс и др. График работы: с 09.00 до 18.00; пятница: до 16.45; Гибридный формат работы. Уютный и комфортный офис в 15 минутах от м.Зорге, м. Полежаевская, м. ЦСКА.

Имя не указано

Откликнуться
Разместить Резюме
Пожаловаться ID: 123960774

Похожие вакансии

Data Engineer (Аналитик Данных)

Договорная

Москва. Станции метро: Полежаевская, Зорге, ЦСКА

Bell Integrator

Инженер данных / Data Engineer

От 300 000 руб.

Москва. Станции метро: Полежаевская, Зорге, ЦСКА

ARK

Инженер данных/Data Engineer

Договорная

Москва. Станции метро: Полежаевская, Зорге, ЦСКА

МГТС

Data engineer / Инженер данных

До 148 000 руб.

Москва. Станции метро: Полежаевская, Зорге, ЦСКА

ТЕХНОЛОГИИ ОТРАСЛЕВОЙ ТРАНСФОРМАЦИИ

Инженер данных / Data Engineer

От 200 000 руб.

Москва. Станции метро: Полежаевская, Зорге, ЦСКА

Coleman Group

Архитектор-разработчик платформы больших данных

Договорная

Москва. Станции метро: Полежаевская, Зорге, ЦСКА

АТОЛ, группа компаний