Обязанности: Создание золотого образа под GPU-серверы/облачные GPU решения. Разработка набора автопроверок: функциональные тесты (установка/инициализация/видимость GPU), smoke/health тесты, регрессия. Нагрузочные тесты/бенчмарки, сбор метрик/Автоматизация жизненного цикла продукта. Поддержка пилотов у заказчиков: подготовка стенда, диагностика, рекомендации по настройкам. Оформление результатов: отчеты по тестированию, матрицы совместимости Опыт работы: 3+ года в DevOps/SRE/MLOps/Platform Engineering Практический опыт эксплуатации Kubernetes-кластера Опыт работы с GPU-окружениями и библиотеками (как минимум NVIDIA-стек) Опыт подготовки воспроизводимых окружений: образы ОС/контейнеры, IaC, автоматизация развертываний Опыт сопровождения ML-пайплайна на PyTorch Желателен опыт поддержки клиентов/пилотов (PoC), разбор инцидентов, сбор требований, выпуск фиксов/релизов, ведение матрицы совместимости Знания и навыки (минимальные): Linux (сильный troubleshooting: systemd, сети, storage, kernel modules, права/SELinux Kubernetes: базовая эксплуатация, namespaces/RBAC, daemonset (для node-level агентов), scheduling CRI-O + Podman CI/CD и Git Автоматизация: Bash + Python , Ansible (или аналог) Понимание программного стека GPU решени. Знания и навыки (желательные): NVIDIA-экосистема: CUDA, NCCL, NVML/DCGM, NVIDIA Container Toolkit, MIG Inference/serving: Triton Inference Server, TensorRT, vLLM/llama.cpp, KServe/Seldon Kubernetes : CNI/CSI, admission controllers, Helm/Kustomize, operators, cluster upgrades IaC: Terraform, Packer, cloud-init Мониторинг: Prometheus, Grafana, Loki/ELK, OpenTelemetry, алертинг и SLO/SLI Нагрузочное/функциональное тестирование: pytest, locust/k6 Виртуализация/облака: OpenStack/VMware, понимание SR-IOV PyTorch Distributed (DDP) / multi-GPU: понимание базовых принципов и типовых проблем запуска Опыт работы с Astra Linux/РЕД ОС/ALT Требования к личным качествам: Системное мышление, аккуратность Самостоятельность: способность развернуть стенд, зафиксировать гипотезы, провести диагностику, оформить результаты Коммуникабельность Ответственность за результат, стрессоустойчивость Готовность быстро изучать незнакомый вендорский стек Знание стека: ОС: Linux (Ubuntu/Debian/CentOS-like; желательно Astra/РЕД ОС) Контейнеризация: Docker/Containerd, Helm K8s: Kubernetes (vanilla/managed), базовые практики эксплуатации GPU-нод CI/CD: Git, GitLab CI/Jenkins Automation/IaC: Ansible, Terraform (желательно), Packer/cloud-init (желательно) Monitoring/Logs: Prometheus, Grafana, Loki/ELK GPU: базовое понимание драйверов, device plugins, GPU diagnostics ML Framework: PyTorch
Похожие вакансии