Обязанности:
Мы создаем следующее поколение продуктов на основе генеративного AI (LLM, RAG) и классического NLP. Наша цель — не только исследовательские модели, но и их промышленная эксплуатация в масштабе. Мы ищем опытного ML-разработчика, который будет проектировать, строить и поддерживать сложные, высокопроизводительные и отказоустойчивые системы машинного инференса, являющиеся фундаментом для наших AI-решений. Обязанности: Проектирование и разработка систем инференса: Создание микросервисной архитектуры для обслуживания (Serving) LLM, эмбеддинг-моделей и реранкеров с низкой задержкой (low-latency) и высокой пропускной способностью (high-throughput). Оптимизация пайплайнов инференса для масштабирования (горизонтального и вертикального) и обеспечения отказоустойчивости (high availability, fault tolerance). Интеграция ML-сервисов с системами оркестрации (Kubernetes), очередями сообщений и API-гейтвеями. Инжиниринг производительности и надежности (совместно с девопсами): Проведение глубокого бенчмаркинга и профилирования инференса (использование GPU/CPU, память, задержки) для выявления узких мест. Реализация стратегий батчинга, кэширования, динамической балансировки нагрузки и graceful degradation для критически важных сервисов. Настройка мониторинга, алертинга и сбора метрик (латентность, ошибки, utilization) для ML-сервисов. Дообучение и адаптация моделей для продакшена (совместно со специалистами по дообучению) Адаптация и оптимизация (квантование, дистилляция, компиляция) LLM и других NLP-моделей для эффективного запуска в production-среде. Организация пайплайнов дообучения (fine-tuning) с учетом требований к воспроизводимости и версионированию данных и моделей. Поддержка и развитие ML-инфраструктуры (совместно с девопсами и специалистами обслуживания RAG систем): Развитие и поддержка core-компонентов для RAG-систем (векторные базы, ретрайверы, реранкеры) с упором на их производительность и надежность. Участие в формировании лучших практик (MLOps) для развертывания (CI/CD), мониторинга и управления версиями моделей. Требования: Опыт работы ML-инженером / MLOps-инженером от 3 лет. Высшее техническое образование (информатика, прикладная математика, Software Engineering). Уверенное знание Python и его экосистемы для ML/инжиниринга. Понимание принципов разработки высоконагруженных и отказоустойчивых распределенных систем. Производственный опыт развертывания и обслуживания ML-моделей: Знание инструментов для serving'a (Ray Serve, Triton Inference Server, KServe, vLLM, TGI). Глубокое знание инфраструктурного стека: Контейнеризация и оркестрация: Продвинутый опыт с Docker и Kubernetes (Deployments, Services, HPA, ресурсные ограничения). Мониторинг и логирование: Опыт настройки Prometheus, Grafana, ELK Stack для ML-сервисов. Проектирование API: Разработка gRPC и REST API для ML-сервисов, понимание идемпотентности, стратегий retry. Навыки оптимизации: Опыт профилирования и ускорения инференса (использование CUDA, TensorRT, ONNX Runtime, профайлеры типа PyTorch Profiler). Опыт работы с полным циклом LLM/RAG (сильное преимущество): Практический опыт промпт-инжиниринга, дообучения (fine-tuning, LoRA) и запуска инференса LLM. Понимание и опыт реализации производительных и надежных RAG-архитектур (работа с векторными БД, оптимизация пайплайнов поиска и ранжирования). Базовые знания Big Data-стэка (Spark) для обработки данных обучения. Знание фреймворков глубокого обучения (например PyTorch) и библиотек (Transformers, Hugging Face). Условия: трудоустройство в соответствии с ТК РФ Заработная плата обсуждается по результатам собеседования и зависит от профессионального уровня кандидата Премии - по результатам работы Медицинское страхование (ДМС) Возможность профессионального развития и карьерного роста Офис в Москве, но работа удаленно. Рабочий день с 10 до 18 часов.
Похожие вакансии