other

Data Scientist (Корпоративный поиск)

Более недели назад

З/П не указана

Город: Москва

СБЕР

Тип занятости: Полная занятость

Требуемый опыт: Опыт от 3 лет

Мы развиваем корпоративный поисковый продукт Сбера, который обслуживает 300K+ пользователей при нагрузке 500+ RPS и индексирует данные из 15+ вертикалей. Наш стек включает федеративное LTR-ранжирование, нейросетевые эмбеддинги, RAG-пайплайны и AI-агентов поверх GigaChat. Мы строим систему, в которой каждый сотрудник Сбера находит нужную информацию за секунды — независимо от того, в какой системе она лежит. Мы ищем Data Scientist, который возьмёт на себя развитие ML-составляющей поиска: от исследования и предложения архитектур до вывода моделей в продакшен и проектирования метрик качества. Вы будете работать в плотной связке с инженерами поиска, продуктом и командой инфраструктуры, и ваши модели сразу пойдут на пользователей в высоконагруженный контур. Обязанности развитие текущего ML-стека: LTR-ранжирование на XGBoost (LambdaMART), классификация и категоризация запросов и документов, исправление опечаток, эмбеддинги (FastText, Sentence-BERT), кросс-энкодеры для реранжирования предложение и обоснование архитектур моделей под новые задачи поиска — от выбора подхода (классический ML vs нейросети vs LLM-based) до проектирования фичей и пайплайна обучения обучение и дообучение моделей: fine-tuning эмбеддеров под доменные данные Сбера, обучение LTR на кликовом фидбеке с IPS-коррекцией, эксперименты с hard negative mining и contrastive learning проектирование метрик и методологии оценки качества: офлайн-метрики (nDCG, MRR, Recall@k), онлайн-эксперименты (A/B, interleaving), side-by-side оценка с асессорами, метрики качества генерации для RAG/агентских сценариев разработка AI-агентов и RAG-сценариев на базе GigaChat: семантический роутинг, адаптивный RAG, оценка качества ответов совместная работа с инженерами по выводу моделей в продакшен и мониторингу деградации. Требования опыт работы Data Scientist от 2 лет, желательно в задачах поиска, ранжирования или рекомендаций уверенное владение классическим ML (градиентный бустинг, линейные модели, feature engineering) и пониманием метрик ранжирования опыт работы с современным NLP-стеком: трансформерные эмбеддеры (BERT-семейство, Sentence-BERT), fine-tuning под доменные задачи, дистилляция опыт с LLM и RAG-пайплайнами: prompt engineering, агентские архитектуры, оценка качества генерации python на хорошем уровне, опыт с PyTorch, Hugging Face Transformers, Scikit-Learn, XGBoost/LightGBM, NumPy/Pandas/Polars умение формулировать гипотезы, дизайнить эксперименты и доводить их до интерпретируемых результатов плюсом будет: опыт с LTR-моделями (LambdaMART, listwise-подходы), PySpark, FastAPI, ANN-индексами (FAISS, HNSW), кросс-энкодерами. Условия конкурентоспособную заработную плату и бонусы по результатам работы возможности для профессионального и карьерного роста. работу над интересными и сложными проектами в дружной и профессиональной команде современный офис и гибкий график работы обучение и участие в конференциях по машинному обучению и искусственному интеллекту.

Показать контакты

Имя не указано

Пожаловаться ID: 154761943

Похожие вакансии

Data Scientist

Договорная

Москва

Лига Цифровой Экономики

Data Scientist

Договорная

Москва

Четыре Лапы

Data Scientist

Договорная

Москва

Четыре Лапы

Data Scientist

Договорная

Москва

2ГИС

Data Scientist

Договорная

Москва

Спикс

Data scientist

Договорная

Москва

LIFE PAY