Обязанности:
Вам предстоит: Инфраструктура Проектирование и поддержка Kubernetes-кластеров (Yandex Cloud + bare metal) Управление Docker-образами, container registry, версионирование Настройка балансировщиков нагрузки (Nginx, HAProxy, Yandex ALB) IaC - вся инфраструктура через Terraform / Ansible, как правило ничего руками Управление сетями, VPN, firewall, DNS, ingress-контроллеры Автоскейлинг: HPA, VPA, Cluster Autoscaler под переменную ML-нагрузку Планирование и оптимизация ресурсов: железо vs облако, FinOps CI/CD Построение пайплайнов сборки и деплоя (GitLab CI / GitHub Actions) Организация окружений: dev, staging, prod с изоляцией и политиками Управление секретами: HashiCorp Vault или Yandex Lockbox Автоматизация рутины - операторы, скрипты, хелперы Безопасность Сканирование Docker-образов на уязвимости (Trivy, Clair) Настройка NetworkPolicy, RBAC, Pod Security Standards в Kubernetes Secrets management - ротация, аудит доступа Audit logging - кто, что, когда делал в кластере Соответствие требованиям 152-ФЗ если применимо к продуктам Observability Мониторинг: Prometheus + Grafana, настройка дашбордов и алертов Логирование: Loki / ELK, structured logging для всех сервисов Distributed tracing: Jaeger или OpenTelemetry Определение и отслеживание SLA / SLO / SLI для критичных сервисов Runbook'и для всех типовых инцидентов Disaster Recovery Бэкапы etcd и всех stateful-компонентов Стратегия восстановления кластера, прописанные RTO и RPO Нагрузочное тестирование инфраструктуры, chaos engineering Post-mortem культура — разбор инцидентов без поиска виноватых MLOps Деплой и обслуживание ML-моделей в Kubernetes (Triton, BentoML, FastAPI) Настройка ML-платформы: MLflow, DVC - версионирование моделей и датасетов Оркестрация ML-пайплайнов: Airflow, Prefect или Argo Workflows Мониторинг качества моделей в проде: data drift, latency, throughput GPU-ресурсы: планирование, квоты, профилирование утилизации Воспроизводимость экспериментов совместно с ML Engineer Процесс деплоя моделей - от артефакта до продакшн-эндпоинта. Документация и процессы Документирование всей инфраструктуры - архитектурные схемы, ADR Runbook'и для команды: как деплоить, как откатить, что делать при инциденте Onboarding новых разработчиков в инфраструктуру Участие в техническом планировании и оценке задач Наши ожидания: Обязательно Kubernetes - продакшн опыт: деплой, отладка, масштабирование, RBAC, сетевые политики Docker - оптимизация образов, multi-stage builds, registry CI/CD - GitLab CI или GitHub Actions, реальные пайплайны в проде Linux - администрирование: сеть, диски, процессы, systemd, производительность Terraform или Ansible - IaC в продакшне Мониторинг: Prometheus + Grafana, настройка алертов, SLO Безопасность: понимание RBAC, secrets management, сканирование образов Сети: TCP/IP, балансировка, ingress, базовый service mesh Облака: Yandex Cloud или AWS / GCP (опыт в крупном облаке засчитывается) MLOps специфика Понимание жизненного цикла ML-модели - обучение, валидация, деплой, мониторинг Опыт деплоя моделей в прод в любом виде GPU-серверы: драйверы, CUDA, планирование нагрузки MLflow, Airflow или любые аналоги - реальный опыт Дополнительно Опыт с Yandex Cloud DataSphere или Managed Kubernetes Python - скрипты, операторы, автоматизация Argo Workflows или Kubeflow Опыт с chaos engineering (Chaos Mesh, Litmus) FinOps практики - теги, бюджеты, отчёты по утилизации. В Dogma Вас ждут: Работа в крупном строительном холдинге федерального уровня; Официальное оформление по ТК РФ с первого рабочего дня (стабильная белая заработная плата с выплатами 2 раза в месяц, оплата больничных листов, ежегодные отпуска); Формат и место работы - гибрид, ул.Садовая-Кудринская, 1; График работы 5/2 с 09.00 до 18.00; Корпоративная программа лояльности для сотрудников Best Benefits – скидки от партнёров; Скидки для сотрудников на приобретение недвижимости компании от 4% до 7%; Всё для эффективной и качественной работы: профессиональная техника, мобильный телефон и корпоративная сотовая связь; Возможность обучения и развития в рамках корпоративного университета компании (тренинги, мастер-классы, онлайн-обучение); Корпоративные подарки детям сотрудников к Новому году и объединяющие корпоративные мероприятия; Корпоративные тренировки по волейболу и футболу; Безграничные возможности кросс-функционального взаимодействия и участия в крупных проектах для расширения профессиональной экспертизы; Отличная команда профессионалов с комфортной и дружелюбной рабочей атмосферой.Похожие вакансии
Договорная
Москва. Станции метро: Баррикадная
Ростелеком Информационные Технологии