Обязанности:
На этой позиции тебе предстоит: Проектировать, разрабатывать, внедрять и поддерживать SLO/SLI для всех сервисов; Участвовать в устранении инцидентов - в связке со смежными командами устранять сбои и предотвращать их повторение; Участвовать в заполнении и разборе постмортемов; Расследовать причины инцидентов (RCA); Разрабатывать и выполнять меры, направленные на предотвращение повторных инцидентов; Развивать мониторинг и алертинг - разработка, обогащение, настройка метрик, логов, трейсов, алертов, дашбордов, ранбуков (и их регулярный анализ/рефакторинг); Автоматизировать рутинную работу; Что мы ждем от кандидата: Экспертные знания в эксплуатации Linux, включая диагностику на уровне ядра (процессы, память, сеть); Опыт работы с Kubernetes и понимание его internal'ов для диагностики сложных проблем; Понимание, как работают сети и умение диагностировать проблемы в их работе; Практический опыт IaаC (Terraform/Ansible) и понимание принципов; Практический опыт построения CI/CD (Gitlab CI, Argo CD); Умение писать автоматизацию и скрипты на Python/Go; Опыт работы с системами мониторинга и логирования (Prometheus, Grafana, Loki, Tempo, ELK); Понимание, что такое SLO и SLI и умение применять их на практике; Уверенный опыт в SRE/Platform/DevOps роли. Будет плюсом, если вы: Имеете практический опыт работы SRE; Знаете, как сделать отказоустойчивый масштабируемый сервис; Имеете опыт написания и ревью технической документации; Обладаете системным мышлением и умением анализировать сложные сценарии отказа, выявлять корневые причины, находить способы их устранения.Похожие вакансии