other

Data Engineer for VLM Training Data (GigaChat Vision)

8 июня 2026

З/П не указана

Город: Москва

СБЕР

Тип занятости: Полная занятость

Требуемый опыт: Опыт от 3 лет

Мы ищем Data Engineer, который будет отвечать за инфраструктуру, пайплайны и качество данных для обучения современных Vision-Language Models. Роль находится на стыке data engineering и ML: нужно будет работать с большими мультимодальными датасетами, понимать потребности исследователей и ML-инженеров, строить пайплайны очистки, фильтрации, категоризации и генерации данных, а также обеспечивать воспроизводимый экспорт данных в формат для обучения моделей. Обязанности Собирать и структурировать потребности ML-команды в данных: какие данные нужны для обучения, дообучения, оценки и улучшения VLM. Предлагать и реализовывать идеи пайплайнов очистки, фильтрации, дедупликации, категоризации и генерации данных. Ориентироваться в современных практиках построения датасетов для Vision-Language Models: image-text pairs, synthetic data, filtering, quality scoring, data mixture design, dataset versioning. Отвечать за инфраструктуру хранения и подготовки данных, включая: импорт данных из различных источников: production, Common Crawl, open-source datasets, generated data; валидацию и контроль качества данных; хранение и версионирование датасетов; экспорт данных в форматы, пригодные для обучения моделей. Проектировать и реализовывать пайплайны обработки данных на большом масштабе, включая десятки миллиардов изображений. Разрабатывать пайплайны генерации синтетических данных для обучения и улучшения VLM. Собирать статистику по данным, строить отчёты и визуализации для анализа состава, качества и покрытия датасетов. Обеспечивать воспроизводимость, наблюдаемость и надёжность data-процессов. Работать в тесной связке с ML-инженерами, исследователями и инфраструктурной командой. Требования Сильный опыт в data engineering и построении production-grade data pipelines. Уверенное владение Python, включая multiprocessing, multithreading и async-подходы. Опыт работы с большими объёмами данных и распределённой обработкой. Практический опыт с объектными хранилищами, в частности S3 или аналогами. Опыт работы с YTsaurus или похожими системами для распределённого хранения и обработки данных. Понимание принципов валидации, очистки, дедупликации и версионирования датасетов. Опыт работы с DVC, Git, Docker. Опыт работы с PostgreSQL или другими реляционными базами данных. Умение проектировать устойчивые пайплайны: от импорта данных до финального экспорта в training-ready формат. Способность самостоятельно разбираться в нечетко сформулированных задачах и доводить их до работающего решения. Готовность работать на стыке engineering и ML research. Будет плюсом Опыт работы с мультимодальными данными: изображения, текст, image-text pairs, captions, OCR, metadata. Понимание того, как устроены современные датасеты для обучения VLM / LMM / multimodal models. Опыт построения пайплайнов для synthetic data generation. Опыт реализации quality scoring, filtering, semantic deduplication, clustering или data attribution. Опыт визуализации статистики по большим датасетам и построения внутренних аналитических дашбордов. Опыт работы с Common Crawl, LAION-подобными датасетами, open-source vision-language datasets. Базовое понимание ML training pipeline и того, как качество данных влияет на качество модели. Условия крупнейшее DS&AI community — более 600 DS-специалистов банка дайджест о самых последних разработках в области DS&AI и отчеты с крупнейших конференций мира возможность быть соавтором НИРов и статей для международных конференций возможность выбрать удобный формат работы: гибрид или офис ежегодный пересмотр зарплаты, годовая премия корпоративный спортзал и зоны отдыха более 400 образовательных программ СберУниверситета для профессионального и карьерного развития расширенный ДМС, льготное страхование для семьи и корпоративная пенсионная программа ипотека выгоднее до 7% для каждого сотрудника бесплатная подписка СберПрайм+, скидки на продукты компаний-партнеров вознаграждение за рекомендацию друзей в команду Сбера.

Показать контакты

Имя не указано

Пожаловаться ID: 154949201

Похожие вакансии

Vision Pretain Data Lead (VLM, GigaChat Vision)

Договорная

Москва

СБЕР

Senior Data Engineer (GigaChat Vision)

Договорная

Москва

СБЕР

Vision RL Lead (VLM, GigaChat Vision)

Договорная

Москва

СБЕР

ML Engineer (Multimodal GigaChat Data)

Договорная

Москва

СБЕР

Data Engineer

От 240 000 руб.

Москва

Сбербанк России, ПАО

Data Engineer

От 243 700 руб.

Москва

Сбербанк России, ПАО