other

Data scientist (NLP) middle

1 июня 2026

От 225 000 до 250 000 руб.

Город: Москва. Станции метро: Спортивная, Лужники

Платформа ОФД

Тип занятости: Полная занятость

Требуемый опыт: Опыт от 1 года

Обязанности:

Платформа ОФД - продуктовая IT- компания, крупнейший в России оператор фискальных данных. Мы анализируем рынок российского ритейла на данных из чеков в режиме реального времени. Ежедневно мы обрабатываем 60 млн кассовых чеков - каждый 3-й чек, пробиваемый в России. В нашей базе 4,7 млрд уникальных названий товаров. Наша команда DS: Строит NLP-ядро решения для автоматической категоризации товарных строк из чеков и извлечения атрибутов, конечной целью которого является восстановление товарной позиции до SKU (полное единое представление товара из чека со всеми присущими ему атрибутами). Ввиду уникальности экспертизы работы с языковыми моделями в обязанности команды также входит внедрение AI-агентов в процессы смежных подразделений компании Ваша роль в команде и основные задачи: Разработка ML-моделей/rule-based/иных решений под поставленные задачи, поиск/лидирование разметки данных для обучения, покрытие мониторинговыми метриками, близкими к продуктовым Обучение, заказ разметки, деплой и покрытие прод метриками модели под следующие типы задач:1. Классификация позиций в чеках по древовидному каталогу2. NER и нормализация атрибутов чековых данных3. AI-агенты на основе локальных LLM для внутреннего использования DS-команды и автоматизации задач смежных подразделений4. Прочие инструменты для разметки данных (очистка, препроцессинг и пр. rule-based решения) Ближайшие ключевые задачи: - Быстрые адаптивные решения под отраслевые проекты (классификация и атрибуция)- AI-агенты для разметки, ТП и чата- Ресерч альтернатив ядерного решения Требования к кандидату: - Трансформеры в NLP: коммерческий опыт обучения и эксплуатации- Векторные представления + Retrieval/Re-rank- Информационное извлечение в ритейле (NER, нормализация, линковка) - Продуктовое мышление и работа с метриками- Структуризация задач на компоненты и эксперименты (из "сырой" в шаги разработки)- Умение формировать вывод и защищать результат Желателен опыт работы с LLM (инференс/агенты): fine-tuning, дообучение, дистилляция, квантование Стек, который мы используем: Данные:1. Обширная ресерч-база, представленная миллиардами уникальных строк чековых наиманований, охватывающая весь возможный спектр отраслей2. Челендж в виде обработки миллионов уникальных наименований ежедневно3. Шумные нейминги, лонг-тейл категорий, постоянный поток новых формулировок/синонимов Инфраструктура:1. Разделение серверов на r&d и пром2. On-prem GPU для обучения и инференса нейросетевых моделей различной архитектуры, включая LLM3. Хранилище данных на Hadoop Как проходит найм: Техническое интервью с TL команды DS Выполнение тестового задания Мы предлагаем условия: Комфортный офис с relax зоной близко от м. Спортивная / МЦК Лужники График работы гибридный: офис 1 раз в неделю по пятницам. Гибкое время начала рабочего дня Трудоустройство по ТК РФ, белая заработная плата ДМС, включая госпитализацию, скорую и стоматологию Насыщенную корпоративную жизнь Обучение и семинары за счет компании

Показать контакты

Имя не указано

Пожаловаться ID: 154671853

Похожие вакансии

Data Scientist (NLP/ LLM)

Договорная

Москва. Станции метро: Спортивная, Лужники

ФГАОУ ВО МГТУ им. Н.Э. Баумана

Data Scientist NLP (Senior)

Договорная

Москва. Станции метро: Спортивная, Лужники

СБЕР

NLP Data Scientist Junior+

Договорная

Москва. Станции метро: Спортивная, Лужники

Альфа-Банк

Data Scientist (NLP / LLM)

Договорная

Москва. Станции метро: Спортивная, Лужники

Р-Вижн

Data Scientist (Middle+)

От 300 000 до 400 000 руб.

Москва. Станции метро: Спортивная, Лужники

Any

Data Scientist (middle)

Договорная

Москва. Станции метро: Спортивная, Лужники

СБЕР