other

Senior Research Engineer, LLM Pretraining

30 марта 2026

З/П не указана

Город: Москва

СБЕР

Тип занятости: Удаленная работа

Требуемый опыт: Опыт от 3 лет

Мы занимаемся pretrain'ом больших языковых моделей в GigaChat: проектируем архитектуру, подбираем рецепт обучения и поддерживаем весь инженерный контур вокруг него. Недавно мы обучили MoE-модель на 700 миллиардов параметров — и на этом не собираемся останавливаться. Обучение идёт на кластерах H100 и B200. GigaChat — самый быстрорастущий проект Сбера, и pretrain — его ядро. Чем занимается команда: - архитектура и законы масштабирования; - рецепт обучения: оптимизатор, расписание lr, нормализации, точность вычислений; - устойчивость больших прогонов и ускорение сходимости; - диагностика обучения, оценка изменений с опорой на математический аппарат; - инженерный контур: воспроизводимость, тесты, CI/CD. Роль с акцентом на модель, оптимизацию и инфраструктуру обучения, а не на данные. Главное — делать обучение быстрее, надёжнее и предсказуемее. Какие задачи стоят перед командой На этой роли важно не просто запускать эксперименты, а улучшать сам процесс обучения. Ускорить цикл «идея → эксперимент → вывод → внедрение». Меньше ручных прогонов, меньше неочевидных сбоев, больше воспроизводимости и понятных выводов. Повысить надёжность больших прогонов. Раньше ловить деградации и отличать реальные улучшения от ложных сигналов: расхождение, NaN'ы, коллапс энтропии, артефакты маршрутизации, обманчивое снижение функции потерь. Сделать крупные архитектурные изменения безопасными при масштабировании. В первую очередь это касается смеси экспертов и маршрутизации: нужно понимать, как они влияют на качество, стабильность и скорость, и какие метрики должны это отражать. Почему мы: Масштаб. 700B MoE уже обучена, дальше — больше. Кластеры на H100 и B200. Публикации. Можно и нужно писать статьи по результатам своей работы — это не ограничивается. Команда. В России нет другой команды, которая занимается pretrain'ом на таком масштабе. Коллеги — люди, которые глубоко разбираются в теме. Влияние. Вы берёте направление целиком. Это не «выполнять задачи из бэклога», а самостоятельно определять, что важно, и доводить до результата. Обязанности Чем предстоит заниматься Взять на себя целое направление внутри pretrain'а и развивать его: от постановки задач и планирования экспериментов до внедрения результатов в основное обучение. Проектировать и проводить эксперименты: формулировать гипотезы, запускать абляции, сравнивать подходы, разбираться в результатах и превращать выводы в решения для основного обучения. Разбираться с нестабильностью на больших прогонах: искать причины деградаций, строить диагностические метрики, предлагать изменения в оптимизаторе, расписании lr, нормализациях, инициализации, клиппинге, точности вычислений и маршрутизации. Работать с архитектурой смеси экспертов (MoE): маршрутизатор, балансировка нагрузки, переполнение, артефакты маршрутизации, влияние на качество и производительность. Поддерживать большие прогоны и продолжения обучения с чекпоинтов: следить за дрейфом, проверять изменения в коде и конфигурации, снижать риск регрессий. Улучшать инженерное качество контура обучения: ревью критичных изменений, стратегия тестирования, воспроизводимость экспериментов, профилирование и устранение узких мест. Требования Глубокое понимание устройства обучения нейросетей: не на уровне обзоров и пересказов, а на уровне, где вы можете объяснить, почему конкретный прогон расходится, глядя на кривые функции потерь, нормы градиентов и энтропии. Способность самостоятельно взять направление и довести его до результата: от чтения статей и постановки гипотез до внедрения в основной трейн. Практический опыт с PyTorch и именно с обучением моделей, а не только с инференсом. Умение доводить исследовательские идеи до надёжного инженерного решения: воспроизводимость, конфиги, тесты, автоматизация, понятные критерии качества. Хорошую инженерную культуру: аккуратные PR, профилирование, внимание к качеству кода, понятные отчёты об экспериментах. Будет плюсом Опыт со смешанной точностью и распределённым обучением. Опыт построения систем оценки моделей или инфраструктуры для экспериментов. Условия Удалённо Возможность оформления в аккредитованную IT-компанию. Годовая премия по итогам работы до 6 окладов. Регулярный пересмотр зарплат. Корпоративный спортзал и зоны отдыха. Более 400 программ СберУниверситета для роста. Программа адаптации и помощь руководителя на старте. Крупнейшее DS&AI community — более 600 DS банка, регулярный обмен знаниями, опытом и лучшими практиками, интерактивные лекции и мастер-классы от ведущих ВУЗов и экспертов технологических компаний, дайджест о самых последних разработках в области DS&AI и отчеты с крупнейших конференций мира, регулярные внутренние митапы. Расширенный ДМС, льготное страхование для семьи, корпоративная пенсионная программа. Ипотека для сотрудников по дисконтной программе. СберПрайм+ и скидки у партнёров. Бонус за рекомендации в команду.

Показать контакты

Имя не указано

Пожаловаться ID: 152457290

Похожие вакансии

Senior LLM-Engineer

Договорная

Москва

СБЕР

Senior Research Engineer (Kandinsky)

Договорная

Москва

СБЕР

Senior Research Engineer (Kandinsky)

Договорная

Москва

СБЕР

Senior Research Engineer (Kandinsky)

Договорная

Москва

СБЕР

LLM Engineer

Договорная

Москва

Интерфакс

Senior Research Developer

Договорная

Москва

UserGate