Обязанности:
Привет! Мы расширяем NLP-команду 2ГИС и ищем несколько дата-сайентистов уровня middle или senior. Мы являемся сервисной командой и решаем задачи для заказчиков внутри нашей компании: Товары/услуги в продукте. UGC (user generated content). Поиск. Автоматическая валидация и сбор данных о фирмах. В товарах занимаемся майнингом данных, дедупликацией товаров между различными компаниями, нормализацией, извлечением характеристик товаров, классификацией, модерацией, обнаружением аномалий. В UGC-задачах — извлечение фактов из отзывов компаний (aspect extraction), модерация отзывов, суммаризация (задача multi-document summarization). В поиске разрабатываем системы исправления опечаток, транслитерации, улучшаем точность и полноту поиска. В задачах валидации и сборки данных о фирмах используем инструменты собственной разработки для парсинга сотен тысяч страниц с целью поиска и валидации контента на них. В ближайшем будущем предполагается решать задачи автоматической генерации различного контента. Пишем на pytorch, делаем юнит-тесты, используем CI, Jenkins, Git, мёрж-реквесты и ревью — всё, что нужно для командной работы. Для работы потребуется опыт работы над NLP-задачами от 3-х лет; хорошее знание Python; опыт работы с PyTorch и/или TensorFlow + NumPy, sklearn; опыт работы с инструментами разработки и CI/CD — Git, Jenkins, GitLab, Jira; опыт работы с брокерами сообщений: rabbitmq, kafka; знание современных архитектур и моделей — рекуррентные и свёрточные сети, современные языковые модели (BERT, BART, Т5 и т. п.), LLM (+ методов их тюнинга RLHF, Lora); знание классических методов —классические языковые модели, tf-idf, Skip-gram, CBoW, CRF, FSTs, HMM; опыт использования библиотек — kenlm, transformers, nltk, pyonmttok, vowpalwabbit, gensim и т.п. Дополнительными плюсами будут опыт участия в соревнованиях по машинному обучению (Kaggle/Boosters.pro и т.п.). Почему у нас хорошо мы аккредитованная IT –компания; само собой, полностью белая зарплата, размер которой обсуждаем на собеседовании; есть ДМС и все классические IT-плюшки; еще у нас можно работать удалённо. Для нас важен специалист, а не его локация. Если хочешь работать в гибридном формате, у нас есть офисы в Москве, Санкт-Петербурге, два классных офиса в Новосибирске; для комфортной работы доставим всё, что нужно и организуем встречи с командой онлайн и офлайн.