other

Дата-аналитик

19 декабря 2024

З/П не указана

Город: Москва. Станции метро: Кутузовская

СБЕР

Тип занятости: Полная занятость

Требуемый опыт: Опыт от 3 лет

Наша команда готовит данные для базовых моделей LLM (GigaChat) и Speech (ASR, Spotter, виртуальные ассистенты). Кроме того, мы помогаем смежным командам эффективно использовать данные технологии для оптимизации бизнес-процессов, улучшения сервисов. Наши задачи на проекте с LLM (GigaChat): Готовим данные для всех этапов обучения GigaChat: претрейн, файнтюнинг (SFT), RLHF, доменное обучение, продуктовые кейсы и др. Придумываем и внедряем метрики оценки качества работы GigaChat Организуем всю разметку для GigaChat: пишем DE пайплайны, делаем аналитику, пишем методологию Инициируем различные эксперименты для обучения базовой модели Обучаем модели для обработки данных. Например, классификаторы типов, сегментация документов и пр. Обязанности Сбор и обработка данных для обучения базовых моделей LLM и ее компонент (претрейн, SFT, reward, PPO и пр.) Реализация проектов для B2B на основе базовой модели: мы работаем с множеством смежных команд и внешними заказчиками, разрабатываем end-2-end решения Определение необходимых метрик для различных компонент, сбор датасетов, написание кода замеров. Мы ищем лучшие метрики для оценки качества работы LLM: от общепринятых (MMLU, TruthfulQA и др.) до кастомных метрик оценки качества работы модели в режиме диалогов или мультимодальных сценариях Написание пайплайнов сбора разметки. Наша команда отвечает за организацию сбора всей разметки для проекта GigaChat: методология, разработка сценариев, кодовая база, мониторинги качества, агрегация и оценка качества конечных меток. Мы имеем обширную кодовую базу, которая еженедельно пополняется Изучение свежих материалов и статей, касающихся работы с обучающими данными LLM, улучшение описанных подходов, проведение экспериментов на базе SOTA подходов и их адаптаций Требования Знаешь Python на высоком уровне (алгоритмы, структуры данных, GIL, async - Pandas в разработке не используем) Умеешь работать в базами данных Разбираешься в метриках: как ML, так и продуктовых Знаешь математическую статистику, теорию вероятностей и умеешь применять их на практике Условия Очень сильная молодая команда с которой можно расти вместе Масштабные, сложные и разнообразные задачи Есть возможность влиять на развитие продукта и результат Конкурентную компенсацию (оклад и премии по результатам деятельности) Свободный дресс-код Гибкий график для оптимального баланса работы и личной жизни Профессиональное обучение, семинары, тренинги, конференции, корпоративная библиотека ДМС, страхование жизни Самые инновационные, амбициозные проекты и задачи Льготные кредиты и корпоративные скидки

Имя не указано

Откликнуться
Разместить Резюме
Пожаловаться ID: 124674617

Похожие вакансии

Дата аналитик

Договорная

Москва. Станции метро: Кутузовская

Центральный банк Российской Федерации (Банк России)

Дата аналитик

Договорная

Москва. Станции метро: Кутузовская

БАНК УРАЛСИБ

Дата-аналитик

От 200 000 руб.

Москва. Станции метро: Кутузовская

ГАЛА-ЦЕНТР

Дата-аналитик

Договорная

Москва. Станции метро: Кутузовская

ANCOR

Дата-аналитик

Договорная

Москва. Станции метро: Кутузовская

Комус

Дата Аналитик

До 300 000 руб.

Москва. Станции метро: Кутузовская

ANCOR