Vision RL Lead (VLM, GigaChat Vision)

11 июня 2026

З/П не указана

Город: Москва

СБЕР

Город: Москва

Тип занятости: Полная занятость

Требуемый опыт: Опыт от 6 лет

СБЕР

Тип занятости: Полная занятость

Требуемый опыт: Опыт от 6 лет

Привет! Это GigaChat Vision — команда, которая делает полный цикл обучения VLM моделей. Ищем lead-инженера, который возглавит RL-направление: выстроит стратегию, соберёт и вырастит команду, и будет отвечать за результат от идеи до продакшна. Первый этап отбора на эту вакансию – общение с AI-рекрутером. После отклика вам на почту и в чат на платформе HeadHunter придет приглашение пройти первичное интервью с ГигаРекрутером в Telegram. Диалог займёт примерно 10 минут. Его задача — уточнить недостающие детали и ускорить рассмотрение вашей кандидатуры. ГигаРекрутер только начинает свой путь, поэтому просим относиться с пониманием. Ваш опыт и участие помогут сделать его удобным и полезным! Обязанности Формировать техническую стратегию RL-направления: определять приоритетные домены, выбирать подходы, строить роадмап несколько кварталов вперед; Принимать ключевые архитектурные решения: выбор алгоритмов, дизайн reward-ов, стратегия масштабирования — и нести за них ответственность; Определять стратегию данных для RL: какие датасеты нужны, какие требования к качеству, как выстроить пайплайн сбора и фильтрации; Определять и внедрять метрики оценки reasoning-качества в существующий eval-фреймворк: выбирать, что измерять, проектировать новые метрики под новые домены и возможности модели; Строить и развивать команду: найм, онбординг, менторинг, ревью. Создавать среду, в которой инженеры развиваются и приносят максимальную пользу; Координироваться со смежными направлениями (Pretrain, SFT, Infra): синхронизировать планы; Отслеживать состояние области и переводить свежие идеи из статей в конкретные эксперименты и решения; Готовность при необходимости лично погружаться в сложные технические задачи: дебажить эксперименты, разбирать аномалии в обучении, доводить до результата руками. Требования Глубокое понимание RL для LLM/VLM (RLHF, GRPO, PPO); Понимание полного цикла обучения VLM/LLM (pretrain → SFT → RL) и того, как решения на каждом этапе влияют на конечный результат; Опыт технического лидерства команды от 3-ех человек: создание роадмапов, декомпозиция задач, приоритизация, менторинг; Опыт с распределённым обучением (DeepSpeed, FSDP) и inference-фреймворками. Умение выстраивать процессы в условиях неопределённости; Опыт взаимодействия со смежными командами и стейкхолдерами; Системное мышление: способность видеть картину целиком — от данных и reward-дизайна до eval и продакшн-метрик. Будет плюсом: Опыт найма и формирования технической команды с нуля; Публикации или open-source вклад в области RL/LLM/VLM; Опыт вывода RL-обученных моделей в продакшн. Условия крупнейшее DS&AI community — более 600 DS-специалистов банка дайджест о самых последних разработках в области DS&AI и отчеты с крупнейших конференций мира возможность быть соавтором НИРов и статей для международных конференций возможность выбрать удобный формат работы: гибрид или офис ежегодный пересмотр зарплаты, годовая премия корпоративный спортзал и зоны отдыха более 400 образовательных программ СберУниверситета для профессионального и карьерного развития расширенный ДМС, льготное страхование для семьи и корпоративная пенсионная программа ипотека выгоднее до 7% для каждого сотрудника бесплатная подписка СберПрайм+, скидки на продукты компаний-партнеров вознаграждение за рекомендацию друзей в команду Сбера.

Показать контакты

Контакт:

Имя не указано

При звонке сообщите, что Вы нашли вакансию на Rabix.ru

Откликнуться

Разместить Резюме

Распечатать Пожаловаться ID: 153232020