Мы - команда GigaChat Data, готовим данные для обучения базовых моделей GigaChat во всех модальностях (Text, Vision, Audio): SFT, RLHF, использование навыков, безопасность модели и пр. Кроме подготовки базовой модели, мы реализуем продуктовые решения на основе базовой модели. Направления задач: - Звуковая модальность GigaChat - большой языковой модели для генерации текста и ответов на вопросы на основе текста и аудио. - ASR - распознавание речи, automatic speech recognition. Краеугольная задача нашего отдела - сделать качественный, быстрый и стабильный ASR. - Keyword Spotting (Wake-word detection) - важный компонент речевых технологий, через который проходит любое взаимодействие пользователя с устройством. Цель алгоритма keyword spotting - выявить ключевое слово в условиях шума и не допустить ложных активаций. Обязанности подготовка данных для обучения и тестирования моделей поиск точек роста, узких мест, нахождение путей улучшения качества моделей за счет данных предобработка, фильтрация и сегментация данных выстраивание архитектуры и написание пайплайнов разметки/сбора данных подбор online и offline метрик, анализ конечного продукта. Требования опыт работы на Python на высоком уровне (алгоритмы, структуры данных, GIL, async) опыт работы над улучшением качества моделей базовое знание статистики. Будет преимуществом: обучение в ШАД опыт с краудсорсингом опыт работы с моделями распознавания речи/LLM. Условия комфортный современный офис рядом с м. Кутузовская гибридный формат работы ежегодный пересмотр зарплаты, годовая премия корпоративный спортзал и зоны отдыха система обучения для профессионального и карьерного развития расширенный полис ДМС с первого дня работы и страхование для семьи программа ипотеки для сотрудников бесплатная подписка СберПрайм+, скидки на продукты компаний-партнеров вознаграждение за рекомендацию друзей в команду Сбера.