Обязанности:
Работа с данными: Сбор, очистка, предобработка и разметка больших наборов текстовых данных. Разработка и внедрение LLM-решений: Проектирование, разработка и внедрение ML-пайплайнов для NLP-задач с использованием LLM. Тонкая настройка предобученных моделей под конкретные бизнес-задачи. Разработка, тестирование и оптимизация промптов для инференса и взаимодействия с LLM через API. Разработка, реализация и поддержка RAG-систем для повышения точности ответов моделей. Мониторинг и сопровождение: Разработка и внедрение комплексных методологий для оценки качества LLM. Тестирование моделей на предмет наличия галлюцинаций, смещений (bias) и токсичности. Проведение A/B-тестов для сравнения эффективности разных моделей и подходов.
Требования:
Высшее техническое образование. Практический опыт на позиции Data Scientist или ML/DL/AI Engineer от 3 лет, из которых не менее 1 года непосредственной работы с LLM. Свободное владение Python. Навыки разработки отказоустойчивого продакшн-кода. Уверенное владение Git. Опыт обработки, очистки и подготовки больших объемов текстовых данных. Свободное владение библиотеками для работы с данными (NumPy, Pandas). Уверенное владение PyTorch (предпочтительно) и/или Tensorflow. Уверенное владение библиотеками от Hugging Face (transformers, tokenizers, datasets, accelerate). Понимание архитектуры Transformer, знание механизма внимания (attention), токенизации, эмбеддингов и структуры encoder-decoder. Практический опыт тонкой настройки LLM для решения конкретных задач (генерации текста, классификации, суммаризации и т.д.). Навыки проектирования, тестирования и оптимизации промптов для LLM и API-сервисов. Практический опыт построения и оптимизации RAG-систем и пайплайнов. Знание векторных баз данных (Pinecone, Weaviate, Chroma, FAISS) и моделей для создания эмбеддингов. Опыт применения техник для уменьшения размера моделей и задержки инференса (GPTQ, AWQ, GGUF/llama.cpp). Опыт развертывания и сопровождения LLM в продакшн-среде. Знание технологий контейнеризации (Docker). Опыт работы с MLOps-инструментами для трекинга экспериментов (MLflow) и регистрации моделей.Похожие вакансии