other

Исследователь-разработчик в DL/RL (дообучение LLM, RLHF, асинхронный RL)

13 июня 2026

От 165 300 до 216 500 руб.

Город: Москва

МФТИ

36 вакансий

Тип занятости: Не важно

Требуемый опыт: Без опыта

Образование: Любое

Обязанности:

О проекте: Центр когнитивного моделирования запускает исследовательско-инженерный проект по дообучению LLM для задач рассуждения (Qwen, Llama и другие модели с открытыми весами). Наша цель: значительно ускорить обучение без заметной потери качества за счёт асинхронного RL, off-policy-коррекций, постепенного усложнения задач и квантизованного инференса. Мы ищем strong junior/ middle разработчика с уклоном в research, который не просто дообучает модели, а предлагает идеи и проверяет их экспериментально. Чем тебе предстоит заниматься: Исследовать и реализовывать методы асинхронного RL и дообучения LLM Предлагать исследовательские гипотезы, ставить эксперименты и проверять их на задачах рассуждения Развивать инфраструктуру обучения и инференса: PyTorch, vLLM/TGI, низкоразрядный инференс Строить воспроизводимые пайплайны и быстро проверять исследовательские гипотезы При желании участвовать в подготовке A* публикаций по результатам работы. Чего мы ждём от тебя: Нам важны сильная база, самостоятельность и способность быстро входить в сложную исследовательскую задачу. Если у вас есть сильная база в одной из областей, то эта вакансия для вас: Уверенный Python / PyTorch и опыт обучения моделей Сильный опыт хотя бы в одной из областей: RL / RLHF / PPO / DPO / GRP дообучение LLM распределённое обучение на нескольких GPU Умение читать статьи, превращать идеи в эксперименты и доводить их до результата Linux, Docker, Git Технический английский на высоком уровне. Будет плюсом: Off-policy RL, importance sampling, SAC, V-trace DeepSpeed, FSDP, VERL, OpenRLHF, SampleFactory vLLM или TGI FP8 / INT8 quantization Curriculum learning - постепенное усложнение задач / адаптивная выборка Опыт работы с бенчмарками на задачи рассуждения Публикации на сильных конференциях Важно Не обязательно совпадать со всем списком - глубина в одной из областей и способность быстро разбираться в новом для нас важнее формального покрытия. Что мы предлагаем: Задачу на переднем крае: асинхронный RL и дообучение LLM для задач рассуждения; Доступ к GPU-кластеру и возможность быстро проверять гипотезы; Сильную исследовательскую команду с опытом публикаций на ICLR, NeurIPS, AAAI, ACL и других ведущих международных конференциях; Организационные детали: Работа в ведущем техническом вузе страны, в городе Долгопрудный (рядом со станцией Новодачная МЦД-1 или 15 минут от метро Алтуфьево, Ховрино, Физтех); Оформление в соответствии с ТК РФ; Возможность бесплатного посещения бассейна и тренажерного зала, концертов, тренингов, и других интересных мероприятий в кампусе МФТИ; Перед началом процесса собеседования просим вас заказать справку о наличии (отсутствии) судимости. Она понадобится на финальном этапе трудоустройства. Такую справку можно заказать на Госуслугах в электронном виде. Срок изготовления справки может занять до 30 дней, просим заранее позаботиться о её получении. Институт ИИ МФТИ – ведущий институт по искусственному интеллекту в России. В состав Института входят сильнейшие ученые и ключевые лаборатории Физтеха по направлениям: оптимизация для ИИ, Робототехника, Генеративный ИИ, Компьютерное зрение и Математическое моделирование. Цель Института - создание прорывных научных исследований и прикладных разработок для ключевых отраслей экономики страны. Немного о нас в цифрах: 1-е место среди технических вузов России в международных рейтинге THE и CWUR (2026); 1-е место в предметном рейтинге RAEX по направлению "Информационные технологии" (2025); 1-е место в рейтинге передовых инженерных школ (2025); 1-е место в рейтинге вузов России по качеству приёма (2025); Лидер в рейтинге вузов по качеству подготовки специалистов в области искусственного интеллекта (2025).

Показать контакты

Волковая Валерия Валерьевна

Пожаловаться ID: 154286374

Похожие вакансии

RL Разработчик

От 250 000 до 250 000 руб.

Москва

МФТИ

RL Разработчик

От 216 500 до 216 500 руб.

Москва

МФТИ

RL+NLP Разработчик

От 160 000 до 200 000 руб.

Москва

МФТИ

RL-инженер

Договорная

Москва

Автономные Технологии

Стажёр в команду NLP / RL (GigaChat)

Договорная

Москва

СБЕР

Middle RL - Engineer (GigaChat Vision)

Договорная

Москва

СБЕР