Обязанности:
Мы ищем Senior MLOps-инженера в команду Machine Learning Infrastructure Services! Ты будешь участвовать в проектировании и развитии Inference Platform-as-a-Service — масштабируемой, отказоустойчивой и производительной платформы для сервинга ML-моделей. Мы ищем специалиста с опытом и отраслевой экспертизой, готового принимать инженерные решения и развивать наши продукты! Основные задачи Разрабатывать и поддерживать Inference Platform-as-a-Service Автоматизировать жизненный цикла ML-моделей - от регистрации до сервинга модели Создавать новые продукты для автоматизации ML-разработки Разрабатывать платформенные сервисы для ML Исследовать новые платформы/инструменты для внедрения их в продукты компании Продвигать и развивать best practices в области MLOps Мы ожидаем ( ML / Inference трек) Опыт развертывания и эксплуатации Kubernetes для инференса моделей (GPU/CPU) Практический опыт работы с MLOps-инструментами деплоя и эксплуатации моделей (Triton Inference Server, BentoML или аналогов) Опыт работы с инференс-движками в Kubernetes Знание принципов автоскейлинга, балансировки нагрузки и маршрутизации трафика в контексте ML-сервисов Понимание принципов мониторинга качества и параметров ML-моделей Опыт настройки и использования GPU-инфраструктуры: драйверы, CUDA Toolkit, MIG, GPU-Enabled Docker (nvidia-container-toolkit) Понимание жизненного цикла ML-экспериментов и их трекинга (MLflow/Clearml или аналоги) Уверенное знание Python Мы ожидаем (OPS трек) Экспертные знания Kubernetes: контроллеры, операторы, HPA, работа с GPU (allocation, driver’s) Опыт автоматизации инфраструктуры и Infrastructure as Code (Terraform, GitOps-подходы) Опыт работы с системами контроля версий и CI/CD (GitLab, GitHub) Опыт работы с Docker и OCI-образами Администрирование Linux: от настройки до мониторинга и диагностики проблем Опыт внедрения и работы со стеком мониторинга (Prometheus Stack) Навыки безопасной работы с чувствительными данными (секреты, токены, сертификаты) +100 к резюме Опыт работы с Jupyter-средами Знание REST/gRPC, HTTP-трассировки и дебага инференс-эндпоинтов Опыт разработки проектов по работе с данными и ML на Python Знание фреймворков ML/DL: PyTorch, TensorFlow, HuggingFace Transformers Знание оркестраторов задач (Prefect, AirFlow) Понимание принципов тестирования (Unit, Integration, System) Понимание основ машинного обучения, его методов, а также сопряженных с ним дисциплин Опыт поддержки production AI-сервисов Желание помогать клиентам в решении их задач Про условия Оформление в официально аккредитованную IT-компанию Белая заработная плата Годовая премия по результатам работы до 15% от суммарного оклада за 12 месяцев 30 000 бонусных рублей на услуги компании ежегодно Релокационный бонус при переезде Бесплатные обеды и кофе-брейки Гибкое начало рабочего дня (до 12:00), гибридный формат работыПохожие вакансии
От 250 000 руб.
Санкт-Петербург
Филиал в г. Санкт-Петербург АО Концерн Радиостроения Вега