other

DevOps+MLOps инженер

17 июня 2026

З/П не указана

Город: Москва

Т1

Тип занятости: Удаленная работа

Требуемый опыт: Опыт от 3 лет

Обязанности: Проектирование, развёртывание и развитие инфраструктуры платформы искусственного интеллекта (on‑prem и облако): Kubernetes‑кластеры, GPU‑ноды, storage, сети, безопасность. ​Построение и поддержка CI/CD/CT‑пайплайнов для ML‑моделей и сервисов: от артефакта DS до продакшн‑инференса с откатами и канареечными релизами. ​Интеграция и эксплуатация LLM/ML‑сервисов для внутренних команд и рыночных внедрений: упаковка моделей в сервисы, конфигурация autoscaling, SLA, observability. ​Настройка мониторинга и алертинга по инфраструктуре и моделям (метрики ресурсов, latency, ошибки, дрейф данных), реагирование на инциденты, участие в post‑mortem. ​Автоматизация ML‑пайплайнов: подготовка данных, обучение, переобучение, регистрация моделей, управление версиями и окружениями. Поддержка внедрений у клиентов: тиражирование платформенных компонентов, адаптация инфраструктуры под контур заказчика, участие в performance‑оптимизации и cost‑cutting (GPU/CPU). Требования: Высшее образование. Опыт работы: 5+ лет. Глубокое понимание жизненного цикла ML‑модели: от экспериментов до продакшн‑инференса и мониторинга. ​Уверенный Linux, сетевые основы, безопасность, работа с контейнерами и оркестраторами. ​Опыт построения CI/CD‑пайплайнов для сервисов и ML‑артефактов (Docker images, модели, данные). Опыт с LLM/GenAI‑платформами: vLLM, TGI, Hugging Face, Triton/ONNX Runtime, оптимизация инференса. ​Опыт построения feature store, model registry, ML pipelines (Kubeflow, MLflow, Airflow, Argo Workflows). Работа в гибридной инфраструктуре: on‑prem кластеры + публичные облака (T1 Cloud, VK Cloud, Yandex Cloud и др.). ​Понимание cost‑optimization: FinOps для GPU/CPU, автобалансировка нагрузок. Языки: Python (утилиты, обвязка) / Bash. ​Контейнеризация и оркестрация: Docker, Docker Compose, Kubernetes (Helm, Operators), желательно Kubeflow. ​CI/CD: GitLab CI / GitHub Actions / Jenkins / Argo CD. ​Инфраструктура: Terraform / Ansible, конфигурация Linux‑серверов, Nginx, cert‑manager. ​Data/ML‑инфраструктура: Apache Kafka, Airflow/Argo Workflows, S3‑совместимые хранилища, MLflow/Weights&Biases. ​Мониторинг и логи: Prometheus, Grafana, Loki/ELK, Sentry, alertmanager. Профессиональные навыки: Проектирование и развёртывание инфраструктуры платформы ИИ (кластер Kubernetes, storage, сети, security) под LLM/ML‑нагрузки. ​Построение воспроизводимых ML‑пайплайнов: обучение, валидация, packaging модели, деплой в batch и real‑time режимах. ​Настройка мониторинга моделей: метрики качества, дрейф данных, latency/throughput, автоматический rollback и retraining‑триггеры. ​Совместная работа с DS/разработчиками и внедренцами: перевод экспериментальных ноутбуков в надёжные сервисы для внутренних и внешних клиентов. Специализированные программы: +GitLab / GitHub, Jira / Confluence/Сфера+Kubernetes ecosystem: kubectl, Helm, K9s, Lens.​+ML‑инструменты: MLflow / Weights & Biases, Kubeflow Pipelines / Airflow, model registry.​+Мониторинг: Prometheus, Grafana, Loki/ELK, Alertmanager, Sentry.

Показать контакты

Имя не указано

Пожаловаться ID: 155293682

Похожие вакансии

DevOps/MLOps инженер

Договорная

Москва

Ростелеком Информационные Технологии

DevOps Engineer (MLOps)

Договорная

Москва

SSP SOFT

MLOps-инженер/DevOps (AI-агенты)

Договорная

Москва

СБЕР

MLOps Engineer / MLOps-инженер

Договорная

Москва

Aston

MLOps-инженер

Договорная

Москва

Росгосстрах