Обязанности:
Наша команда готовит данные для базовых моделей LLM (GigaChat) и Speech (ASR, Spotter, виртуальные ассистенты), Кроме того, мы помогаем смежным командам эффективно использовать данные технологии для оптимизации бизнес-процессов, улучшения сервисов. Наши задачи на проекте с LLM (GigaChat): Готовим данные для всех этапов обучения GigaChat: претрейн, файнтюнинг (SFT), RLHF, доменное обучение (финансы, медицина, образование и тп.), продуктовые кейсы и др.; Придумываем и внедряем метрики оценки качества работы GigaChat; Организуем всю разметку для GigaChat: пишем DE пайплайны, делаем аналитику, пишем методологию; Инициируем различные эксперименты для обучения базовой модели; Обучаем модели для обработки данных. Например, классификаторы типов, сегментация документов и пр. Базовые задачи для нашей вакансии: Написание пайплайнов анализа моделей перед выкаткой в продакшн, анализ моделей Пайплайн сбора тренировочных данных Пайплайн сбора разметки Скрипты расчета различных метрик Доработка функционала для работы со смежниками Чего мы ждем: Знаешь Python на высоком уровне (алгоритмы, структуры данных, GIL, async - Pandas в разработке не используем); Умеешь работать с базами данных; Разбираешься в метриках: как ML, так и продуктовых; Знаешь математическую статистику, теорию вероятностей и умеешь применять их на практике. Если среди опыта есть подготовка данных для больших моделей - существенный плюс. Условия: Очень сильная молодая команда, с которой можно расти вместе Масштабные, сложные и разнообразные задачи Есть возможность влиять на развитие продукта и результат Конкурентную компенсацию (оклад и премии по результатам деятельности) Свободный дресс-код Гибкий график для оптимального баланса работы и личной жизни Профессиональное обучение, семинары, тренинги, конференции, корпоративная библиотека ДМС, страхование жизни Самые инновационные, амбициозные проекты и задачи Льготные кредиты и корпоративные скидки