Обязанности:
У меня есть вакансия в одну из крупнейших компаний в России. Проект: Feature store для ML. Команда будет отвечать за работу хранилища признаков для ML- модели. Команда: Team Lead, data engineers, back and front developers, QA. Чем предстоит заниматься разрабатывать пайплайны построения витрин данных и обработки данных в пакетном и онлайн режимах; разработка мониторинга работы пайплайнов в продуктивном контуре; разрабатывать структуру хранилища по парадигме Data Vault 2.0; реализовать PoC (MVP) с использованием новых инструментов и технологий. оптимизировать процессы хранения и обработки данных с использованием современных технологий и подходов; реализация распределенных алгоритмов на больших данных; тестирование пайпланов обработки данных; разработка архитектуры данных для Feature store разработка, продукционализации и оптимизация признаков для моделей машинного обучения; разработка пайплайнов обезличивания данных для тестирования признаков для моделей машинного обучения; Что ожидаем от тебя Опыт коммерческой разработки на Scala от 3 лет, SQL - аналитические функции, оконные функции, триггеры; PostgreSQL, Redis, Greenplum; Обработка данных с помощью: Apache Spark (основной фреймворк платформы), Apache Spark structured streaming, Flink, Apache Kafka, оптимизация Apache Spark задач (понимание работы изнутри, оптимизация параметров работы джобов); Опыт работы с манипуляцией данными в распределённых файловых хранилищах HDFS, Ceph S3; Опыт работы в работы со стеком Hadoop (Yarn, Spark History server); Опыт разработки дагов Apache Airflow (все пайплайны оркестрируются); Опыт работы с Feature store (Feast). Что готовы предложить: Оформление по ТК РФ: оклад (готовы обсуждать)+ годовой бонус; Компания входит в реестр ИТ компаний; Удаленный формат работы. При желании можно работать в офисе класса А ДМС со стоматологией (с 1 рабочего дня + полис путешественника); Частичная компенсация фитнеса / обучения / доп. мед. услуг (лимит-25 тыс. рублей в год). Как мы проводим собеседования: 15-20 минут - общение с рекрутером (tg аудио); 90 минут - техническое интервью; 60 минут - финальная встреча; СБ, 1-3 дня; Оффер.