Обязанности:
Задачи Автоматизировать рутинные операции (оркестрация, масштабирование, восстановление) Масштабировать сервисы под нагрузку, искать узкие места, улучшать производительность и стабильность Развивать наблюдаемость систем через мониторинг, логирование и алертинг Заниматься поддержкой релизного цикла и минимизацией времени деплоя. Одна из важнейших целей команды — сделать релизы быстрыми и безопасными Обеспечивать бесперебойную работу наших сервисов в режиме 24/7, реагировать на мониторинги и нештатные события Помимо ежедневных задач SRE придется глубоко погружаться в экосистему VK, интегрировать свои решения с другими командами и обеспечивать бесперебойную работу наших сервисов в любых условиях Требования Опыт работы с распределёнными системами Уверенное владение Linux, понимание принципов работы сетей и протоколов взаимодействия приложений (TCP/IP, DNS, балансировка, ACL), навыки диагностики проблем с ними Опыт работы с системами мониторинга Victoria Metrics/Prometheus, Grafana, с системами контейнеризации и оркестрации Docker и K8s Навыки автоматизации с использованием Bash и базовое владение Python/Go Способность работать самостоятельно: формулировать цели, предлагать решения Опыт работы от 3 лет на позиции SRE / системного администратора LinuxПохожие вакансии