Мы, команда компании «ИНИТИ», предлагаем специалистам по профилю «Data Scientist в области языковых моделей (Middle)» присоединиться к числу своих сотрудников и работать из любой точки мира. Компания состоит в реестре российских аккредитованных IT-компаний, что в числе прочего подразумевает под собой отсрочку от призыва на военную службу, а также льготную ипотеку. По результатам собеседования соискателю может быть предложена возможность трудоустройства за пределами РФ. Обязанности: Работа с данными: Сбор, предобработка и анализ текстовых данных для обучения моделей. Разработка пайплайнов: Создание надежных процессов подготовки данных (очистка, токенизация, создание пользовательских токенов). Дообучение LLM: Помощь в fine-tuning языковых моделей под специфические задачи компании с использованием современных подходов (SFT, LoRA, QLoRA). Агентские системы: Проектирование и разработка AI-агентов, работа с инструментами оркестрации (например, LangGraph или аналоги). Эксперименты: Проведение R&D циклов с различными архитектурами и конфигурациями для повышения качества ответов. Отчетность: Документирование хода экспериментов и визуализация результатов. Требования: Опыт и Python: Уверенное владение Python и стандартным стеком (Pandas, NumPy, Matplotlib). NLP-стек: Опыт работы с библиотеками экосистемы Hugging Face (Transformers, PEFT, Datasets, Accelerate). Методы работы с текстом: Знание современных подходов (Embeddings, Vector Databases, RAG) и классических методов. Агенты: Базовое понимание концепций агентного взаимодействия (ReAct, планирование, использование инструментов/tools). MLOps & Инфраструктура: Базовые навыки работы с Docker, понимание процессов CI/CD для ML и опыт контейнеризации сервисов. Опыт с данными: Навык работы с крупными текстовыми датасетами и понимание принципов их фильтрации. Приветствуется: Продвинутый Fine-tuning: Практический опыт применения LoRA/QLoRA для адаптации моделей (Llama, Mistral, Qwen и др.). Distributed Computing: Навыки работы в распределенных системах обработки данных или опыт обучения на нескольких GPU. Инструменты развертывания: Знание решений для высоконагруженного инференса (vLLM, NVIDIA Triton или TGI). Мониторинг: Опыт работы с системами трекинга экспериментов (Weights & Biases, MLflow). Условия: оформление по ТК удаленный режим работы из любой точки мира график работы (09:00-18:00) (сб, вс - выходные) возможно согласование рабочего графика (смещение рабочего дня, перенос рабочего дня на выходной) дополнительная неделя отпуска испытательный срок 1-3 мес начальный уровень з/п определяется, исходя из результатов собеседования.
Похожие вакансии
Middle Data scientist (валидация моделей)
Договорная
Москва. Станции метро: Тульская, Верхние Котлы, Крымская
СБЕР
Middle Data scientist (валидация моделей)
Договорная
Москва. Станции метро: Тульская, Верхние Котлы, Крымская
СБЕР
Договорная
Москва. Станции метро: Тульская, Верхние Котлы, Крымская
Ecom.tech
Data Scientist middle/middle+ (ML)
Договорная
Москва. Станции метро: Тульская, Верхние Котлы, Крымская
РУСАЛ
Data Scientist (Middle+) в промышленности
Договорная
Москва. Станции метро: Тульская, Верхние Котлы, Крымская
Промышленные инновации