other

Senior Data Engineer (GigaChat Vision)

8 июня 2026

З/П не указана

Город: Москва

СБЕР

Тип занятости: Полная занятость

Требуемый опыт: Опыт от 6 лет

Мы ищем Senior Data Engineer, который будет отвечать за инфраструктуру, пайплайны и качество данных для обучения современных Vision-Language Models. Роль находится на стыке data engineering и ML: нужно будет работать с большими мультимодальными датасетами, понимать потребности исследователей и ML-инженеров, строить пайплайны очистки, фильтрации, категоризации и генерации данных, а также обеспечивать воспроизводимый экспорт данных в формат для обучения моделей. Обязанности Собирать и структурировать потребности ML-команды в данных: какие данные нужны для обучения, дообучения, оценки и улучшения VLM. Предлагать и реализовывать идеи пайплайнов очистки, фильтрации, дедупликации, категоризации и генерации данных. Ориентироваться в современных практиках построения датасетов для Vision-Language Models: image-text pairs, synthetic data, filtering, quality scoring, data mixture design, dataset versioning. Отвечать за инфраструктуру хранения и подготовки данных, включая: импорт данных из различных источников: production, Common Crawl, open-source datasets, generated data; валидацию и контроль качества данных; хранение и версионирование датасетов; экспорт данных в форматы, пригодные для обучения моделей. Проектировать и реализовывать пайплайны обработки данных на большом масштабе, включая десятки миллиардов изображений. Разрабатывать пайплайны генерации синтетических данных для обучения и улучшения VLM. Собирать статистику по данным, строить отчёты и визуализации для анализа состава, качества и покрытия датасетов. Обеспечивать воспроизводимость, наблюдаемость и надёжность data-процессов. Работать в тесной связке с ML-инженерами, исследователями и инфраструктурной командой. Требования Сильный опыт в data engineering и построении production-grade data pipelines. Уверенное владение Python, включая multiprocessing, multithreading и async-подходы. Опыт работы с большими объёмами данных и распределённой обработкой. Практический опыт с объектными хранилищами, в частности S3 или аналогами. Опыт работы с YTsaurus или похожими системами для распределённого хранения и обработки данных. Понимание принципов валидации, очистки, дедупликации и версионирования датасетов. Опыт работы с DVC, Git, Docker. Опыт работы с PostgreSQL или другими реляционными базами данных. Умение проектировать устойчивые пайплайны: от импорта данных до финального экспорта в training-ready формат. Способность самостоятельно разбираться в нечетко сформулированных задачах и доводить их до работающего решения. Готовность работать на стыке engineering и ML research. Будет плюсом Опыт работы с мультимодальными данными: изображения, текст, image-text pairs, captions, OCR, metadata. Понимание того, как устроены современные датасеты для обучения VLM / LMM / multimodal models. Опыт построения пайплайнов для synthetic data generation. Опыт реализации quality scoring, filtering, semantic deduplication, clustering или data attribution. Опыт визуализации статистики по большим датасетам и построения внутренних аналитических дашбордов. Опыт работы с Common Crawl, LAION-подобными датасетами, open-source vision-language datasets. Базовое понимание ML training pipeline и того, как качество данных влияет на качество модели. Условия крупнейшее DS&AI community — более 600 DS-специалистов банка дайджест о самых последних разработках в области DS&AI и отчеты с крупнейших конференций мира возможность быть соавтором НИРов и статей для международных конференций возможность выбрать удобный формат работы: гибрид или офис ежегодный пересмотр зарплаты, годовая премия корпоративный спортзал и зоны отдыха более 400 образовательных программ СберУниверситета для профессионального и карьерного развития расширенный ДМС, льготное страхование для семьи и корпоративная пенсионная программа ипотека выгоднее до 7% для каждого сотрудника бесплатная подписка СберПрайм+, скидки на продукты компаний-партнеров вознаграждение за рекомендацию друзей в команду Сбера.

Показать контакты

Имя не указано

Пожаловаться ID: 154949438

Похожие вакансии

Senior RL - Engineer (GigaChat Vision)

Договорная

Москва

СБЕР

Data Engineer for VLM Training Data (GigaChat Vision)

Договорная

Москва

СБЕР

Vision Pretain Data Lead (VLM, GigaChat Vision)

Договорная

Москва

СБЕР

Middle RL - Engineer (GigaChat Vision)

Договорная

Москва

СБЕР

Middle DL-engineer (GigaChat Vision)

Договорная

Москва

СБЕР

Senior Data Engineer

Договорная

Москва

СБЕР