Обязанности:
Чем предстоит заниматься: Руководство группой эксплуатации: постановка задач, приоритизация, контроль выполнения, развитие инженерной экспертизы команды. Организация и контроль эксплуатации кластеров Kubernetes (on-prem и в публичных облаках). Ответственность за управление инфраструктурными ресурсами в публичных облаках (Yandex.Cloud/VK.Cloud), включая планирование мощностей и оптимизацию затрат. Стратегическое планирование и развитие инфраструктурных и платформенных решений компании. Архитектурный и технический контроль изменений: участие и финальное согласование Code Review инфраструктурных приложений и IaC, контроль качества и единых стандартов. Развитие и стандартизация процессов Infrastructure as Code в команде. Организация и контроль внедрения практик GitOps / DevOps в инфраструктуре. Обеспечение актуальности и полноты технической документации, формирование эксплуатационных регламентов. Ответственность за эксплуатацию сред виртуализации (KVM) и обеспечение их отказоустойчивости и непрерывной работы. Организация эксплуатации и развития критически важных инфраструктурных сервисов: Redis, Elasticsearch, RabbitMQ, Kafka. Управление инцидентами на инфраструктуре, участие в разборе причин. Что мы ожидаем: Опыт эксплуатации и архитектурного проектирования высоконагруженных систем оркестрации контейнеров (Kubernetes) — on-prem и в публичных облаках. Глубокое понимание подхода IaC и опыт его внедрения на уровне команды и организации (Terraform, Ansible). Опыт построения и развития систем мониторинга инфраструктуры и сервисов: определение ключевых метрик, проектирование дашбордов, организация алертинга (VictoriaMetrics / Grafana). Понимание принципов построения и эксплуатации отказоустойчивых, высокодоступных и масштабируемых систем. Опыт организации процессов резервного копирования и восстановления инфраструктурных компонентов. Навыки технического лидерства: принятие архитектурных решений, наставничество, управление техническим долгом. Умение работать на стыке команд эксплуатации, разработки и архитектуры. Будет плюсом: Опыт управления гибридной инфраструктурой. Понимание SRE-подходов и практик повышения надёжности.Похожие вакансии
Руководитель группы эксплуатации ППО
Договорная
Москва. Станции метро: Крылатское, Молодежная, Мнёвники, Терехово
ОТР
Договорная
Москва. Станции метро: Крылатское, Молодежная, Мнёвники, Терехово
SberTech
Договорная
Москва. Станции метро: Крылатское, Молодежная, Мнёвники, Терехово
DatsTeam
Системный администратор (SysOps)
Договорная
Москва. Станции метро: Крылатское, Молодежная, Мнёвники, Терехово
Positive Technologies
Договорная
Москва. Станции метро: Крылатское, Молодежная, Мнёвники, Терехово
SberTech
Руководитель группы запуска и эксплуатации
Договорная
Москва. Станции метро: Крылатское, Молодежная, Мнёвники, Терехово
Мираторг, Агропромышленный холдинг