Обязанности:
Ключевые задачи: Поддержка кластеров (GPU/TPU), контейнеризации и оркестрации (Docker, Kubernetes); Аудит, оптимизация инфраструктуры и затрат (batch vs real-time inference, разграничение проблем железа и кода); Настройка мониторинга, алертинга и менеджмент железа между потребителями; Развертывание и поддержка ML-сервисов (MLflow, Airflow, CVAT, Doccano) в production; Настройка CI/CD для ML-пайплайнов и управление полным ML lifecycle (training -> serving). Требования: Опыт DevOps от 4х лет, MLOps от 1 года; Опыт с GPU/TPU инфраструктурой (NVIDIA stack, CUDA); Коммерческий опыт с Docker, Ansible, Kubernetes; понимание специфики baremetal; ELK, Prometheus, Grafana; Опыт с ML Serving (Triton/vLLM/аналоги); Postgres, Redis, Kafka. Будет плюсом, если есть опыт с: Python/Bash scripting; Облачные платформы (AWS/GCP/Azure/Yandex/Selectel) и Terraform; Spark/Hadoop;Похожие вакансии