other

NLP engineer (GigaChat)

Более недели назад

З/П не указана

Город: Москва

SberTech

Тип занятости: Полная занятость

Требуемый опыт: Опыт от 3 лет

Мы - команда GigaChat Pretrain Data, готовим pretrain данные для GigaChat и GigaChat Vision. Pretrain данные - это фундамент, с которого начинается путь современной LLM модели и то, от чего наиболее зависит ее итоговое качество. Сырых данных более 40Пб и основная задача заключается в том, чтобы из этого хаоса сделать датасет, на котором будет обучена лучшая LLM в России. Обязанности генерировать синтетические данные: математика, код, произвольная синтетика с сидами - документами из Web исследовать токенизацию и ее влияние на качество модели (возможно написание статей) решать задачи кластеризации миллиардов документов исследовать разные факторы, которыми обладают текстовые данные генерировать Vision данные для прокачки VLM разрабатывать новые алгоритмы парсинга HTML и исследовать его влияние на качество модели исследовать зависимости между pretrain данными и agentic capabilities итоговой модели разрабатывать стабильную инфраструктуру, которая будет поддерживать проведение сотен и тысяч экспериментов над данными. Требования имеешь коммерческий релевантный опыт связанный с NLP или построением инфраструктуры для данных от двух лет. Будет плюсом: навыки работы с генеративными AI-моделями; опыт создания AI-агентов и использования их в работе будет преимуществом опыт использования GigaChat, Kandinsky и аналогов в продуктах, навыки создания и использования AI-агентов инструментальное владение AI для анализа, генерации и автоматизации опыт с MapReduce системами. Условия комфортный современный офис рядом с м. Кутузовская гибридный формат работы (2 дня в офисе, 3 дня на удалёнке) ежегодный пересмотр зарплаты, годовая премия корпоративный спортзал и зоны отдыха система обучения для профессионального и карьерного развития расширенный полис ДМС с первого дня работы и страхование для семьи льготная программа ипотеки для сотрудников бесплатная подписка СберПрайм+, скидки на продукты компаний-партнеров вознаграждение за рекомендацию друзей в команду Сбера.

Показать контакты

Имя не указано

Пожаловаться ID: 153846473

Похожие вакансии

ML Engineer (NLP)

Договорная

Москва

Центральный банк Российской Федерации (Банк России)

CV engineer (Gigachat)

Договорная

Москва

СБЕР

DL Engineer (GigaChat TTS)

Договорная

Москва

СБЕР

Стажёр в команду NLP / RL (GigaChat)

Договорная

Москва

СБЕР

Senior ML Engineer — Matching / NLP

Договорная

Москва

HeadHunter

Lead/Senior ML Engineer (NLP)

Договорная

Москва

Центральный банк Российской Федерации (Банк России)