other

Senior Data Scientist NLP

Более недели назад

З/П не указана

Город: Москва

Сбер Лигал

Тип занятости: Полная занятость

Требуемый опыт: Опыт от 3 лет

Обязанности:

Кого мы ищем? Мы ищем опытного и неравнодушного Senior DS, способного возглавить обучение моделей для NLP-сервисов с применением самого современного технологического стека, в том числе – больших языковых моделей (LLM). Кто мы? Наша междисциплинарная команда: юристов, лингвистов, разработчиков и исследователей данных создаёт семейство продуктов, позволяющих автоматизировать разнообразные правовые экспертизы. Мы накопили обширную экспертизу в области применения трансформерных моделей для решения иерархических NER-задач, а сейчас одними из первых в мире реализуем семейство юридических сервисов на базе LLM. Мы создаем банковские и экосистемные LegaTech-продукты и находимся на переднем крае разработки искусственного интеллекта в сфере повышенной ответственности – юриспруденции. Наш вызов Научить искусственный интеллект анализировать правовые риски и выдавать проекты юридических заключений по документам, предоставленным клиентами банка, создавать выверенные и юридически корректные документы, осуществлять детализированный поиск по объектам внутри документов. Сложность задач заключается в том, что используемые ML-алгоритмы должны уметь анализировать большой объем данных из разных источников. Чем предстоит заниматься У вас будет возможность участвовать во всех этапах реализации NLP/AI задач – от поиска релевантных статей на Arxiv и проведения экспериментов до проверки моделей на реальных данных и вывода в production. Работа связана с внедрением больших лингвистических моделей LLM в наши процессы: Анализ задач и подбор адекватных SOTA-решений, быстрая оценка эффективности их применения, оценка необходимых ресурсов (данные, вычисления), проверка гипотез, выработка плана разработки. Подготовка требований к составу, объему и форматам данных, необходимых для дообучения на примерах (SFT — supervised fine-tuning) LLM на специализированном юридическом домене, взаимодействие с функциями DA/DE. Организация процесса превращение GPT моделей в InstructGPT по методологии RLHF (обучение с подкреплением по обратной связи от человека). Участие в разработки инструментов разметки для целей тренировки RM (модуля наград RL-цикла тренировки LLM). Автогенерация обучающих примеров для InstructGPT и другие способы уменьшения издержек в процессе адаптации LLM под требования пользователей (Human tasks Alignment) Изучение, разработка и внедрение подходов, обеспечивающих высокий уровень честности (Honest) моделей, в том числе с самодиагностикой — это важно для правовой экспертизы. Улучшение уже применяющихся компонент, моделей и пайплайнов сегментации и классификации, извлечения и связывания сущностей в используемом нами подходе к решению задачи NER, работа над ошибками моделей, доработка архитектуры. Мы также рассчитываем на активное участие успешных кандидатов в подготовке пилотных решений и демонстрации AI-продуктов перспективным клиентам вне Сбера. Наш текущий технологический стек: Модели: MT0, T5, BERT (RuBERT-Base), LLM (LLaMA-2 и, конечно же, GigaChat) PyTorch, ML Flow pandas, numpy, scipy, matplotlib, seaborn PostgreSQL, MongoDB, Redis, Elasticsearch Docker, Kubernetes, Собственные инструменты и ресурс разметки Наши ожидания от кандидатов: Понимание архитектуры и принципов обучения больших лингвистических моделей (LLM) и генеративных трансформеров (GPT-3 и выше). Понимание принципов обучения и применения моделей обучения с подкреплением (Reinforced Learning). Понимание принципов квантизации нейронных сетей. Готовность работать в команде и применять Git, Jira, Confluence и другие средства командной работы. Высокая степень самоорганизации. Подробное написание документации к разработанным продуктам и поддержание её в актуальном состоянии. Готовность браться за нестандартные, сложные задачи. Что мы предлагаем Работа среди сильных специалистов в своей области. В нашей команде работают выпускники МФТИ, МГУ, ВШЭ, МГЮА Возможности саморазвития: оплата поездок на конференции, прохождение курсов, спортзал. Также приветствуется научная деятельность и публикации статей/тезисов конференций. ДМС для сотрудника и его родственников. Льготная ипотека в Сбере.

Имя не указано

Откликнуться
Разместить Резюме
Пожаловаться ID: 116063617

Похожие вакансии

Senior Data Scientist (NLP)

Договорная

Москва

СБЕР

Senior Data Scientist (NLP)

Договорная

Москва

Цифровые технологии и платформы

Senior Data Scientist (NLP, LLM)

Договорная

Москва

СБЕР

Senior NLP Data Scientist / GigaChat

Договорная

Москва

СБЕР

Senior Data Scientist (NLP, CV)

Договорная

Москва

СБЕР

Senior Data Scientist (NLP, LLM)

Договорная

Москва

Газпромбанк