Big Data Engineer (NRT/Spark)

Более недели назад

З/П не указана

Город: Москва. Станции метро: Таганская, Павелецкая

Яндекс

Город: Москва. Станции метро: Таганская, Павелецкая

Тип занятости: Полная занятость

Требуемый опыт: Опыт от 3 лет

Яндекс

Тип занятости: Полная занятость

Требуемый опыт: Опыт от 3 лет

Обязанности:

Описание проекта Финтех в Яндексе — это одно из ключевых и наиболее динамично развивающихся направлений компании. Это экосистема финансовых сервисов, встроенная в повседневную жизнь миллионов пользователей и бизнесов. Это молодое, смелое направление, которое уже доказало свою пользу и продолжает активно расти. Ключевые продукты Финтеха Яндекса: Яндекс Пэй, Сплит, Сейвы, Карта Плюса, Кредитные продукты, Яндекс ID, Яндекс Про и многое другое Это сложная инженерная и аналитическая среда, где пересекаются хайлоад, большие данные и жёсткие требования регуляторов. Здесь ты столкнёшься с: Высокими нагрузками: Миллионы транзакций, таблицы с объёмом далеко за 1 млн записей Распределёнными данными: Используются Greenplum, ClickHouse, Hadoop, Spark для обработки огромных массивов информации Архитектурой DWH: Строятся сложные хранилища данных, витрины для отчётности (регуляторной и управленческой), настраиваются ETL-процессы Безопасностью и интеграцией: Проработка интеграций с внешними источниками (БКИ, СМЭВ), автоматизация ручных процессов бэк-офиса, работа с автоматизированными банковскими системам В команду платформенных данных требуется специалист по Apache Spark с глубоким понимаем внутренней архитектуры фреймворка. Основная задача - развитие платформы для обработки NRT- данных (near real time), повышение отказоуйсточивости и производительности потоковых процессов. Какие задачи вас ждут: Проектирование и развитие облачной data-платформыОптимизация текущей инфраструктуры и проектирование новых компонентов платформы с использованием облачных технологий Yandex Cloud. Готовимся к кратному росту объемов обрабатываемых данных. Миграция с GreenPlum на Trino / S3Переход с дорогостоящего в поддержке и эксплуатации Greenplum на доступ к данным в S3 через Trino. Используем современные технологии для быстрого доступа к данным в основном хранилище. Построение единой observability-платформы для таблиц DWHСоздание единой точки входа для мониторинга статусов сборки, качества данных и анализа зависимостей, включая построение datalineage и процессы логирования. Обеспечиваем наблюдаемость и контролируемость процессов. Ускорение текущих процессов поставки данныхОптимизация существующих и построение новых надежных процессов поставки данных, включая процессы взятия снепшотов, загрузки инкрементов напрямую, из аудит-таблиц и CDC, а также внедрение Spark Streaming или аналогичных решений для обеспечения near-real-time обновления данных. Ускоряем обработку растущих потоков данных. Автоматизация ручных процессовПостроение CI/CD пайплайнов для автоматизации процессов развертывания инфраструктуры, построения новых интеграций. Отадем рутину автоматике. Повышение безопасности доступа к даннымВыстраивание процессов автоматической выдачи и контроля доступов во всех системах, включая доступ к инфраструктуре, данным и аудит действий пользователей. Обеспечиваем безопасный и контролируемый доступ к банковским данным. Построение тестовых окруженийСоздание изолированных сред разработки, тестирования и предпрод с автоматизированными процессами тестирования. Выстраиваем среду безопасной разработки и повышаем надежность разрабатываемых решений Развитие фреймворков обработки данныхРазвитие внутренних фреймворков для загрузки, трансформации и контроля качества данных. Делаем low-code решения для ускорения разработки. Ключевые требования Опыт коммерческой разработки от 4 лет Глубокое понимание устройства БД: оптимизация запросов, планы выполнения, партиционирование, шардирование и индексы Владение разными типами СУБД: PostgreSQL, Oracle, MongoDB, Greenplum Реальный опыт с CDC (Change Data Capture) — понимание принципов и умение реализовывать пайплайны Уверенная работа с S3-совместимыми хранилищами Стек для ежедневных задач: Языки: Python (основной для разработки пайплайнов и скриптов) Оркестрация: Apache Airflow (разработка пайплайнов) Обработка данных: Apache Spark (Spark SQL, DataFrame) Запросы: Trino (работа с данными через движок)

Показать контакты

Контакт:

Имя не указано

При звонке сообщите, что Вы нашли вакансию на Rabix.ru

Откликнуться

Разместить Резюме

Распечатать Пожаловаться ID: 151782129