Обязанности:
Чем предстоит заниматься: Проектировать и поддерживать устойчивую, масштабируемую и высокодоступную инфраструктуру; Обеспечивать высокую доступность и отказоустойчивость сервисов; Внедрять и развивать практики мониторинга, алертинга, логирования и observability на базе стека VictoriaMetrics, Grafana и других инструментов; Обеспечивать полную наблюдаемость систем за счёт организации сбора метрик, логов и трейсов; Определять, внедрять и поддерживать SLI/SLO, проводить анализ первопричин (RCA) и постмортем-встречи; Вести техническую экспертизу инцидентов, а также инициировать и реализовывать улучшения на основе проведённого анализа; Тесно взаимодействовать с командами разработки и DevOps, участвовать в процессах CI/CD и работе над улучшением пайплайнов; Активно использовать подход "Infrastructure as Code" (Terraform, Ansible) в ежедневной работе; Заниматься наставничеством, передачей знаний и развитием SRE-культуры внутри команды. Что мы ждем от кандидата: Глубокое понимание принципов SRE и культуры надежности; Подтвержденный опыт в проектировании и поддержке высокодоступных, отказоустойчивых систем, способных выдерживать большие нагрузки; Экспертные знания в области Linux, мониторинга, логирования, алертинга и визуализации данных (опыт работы с Prometheus, Grafana, ELK Stack и другими подобными инструментами); Уверенное владение Kubernetes, CI/CD инструментами и инструментами Infrastructure as Code (Terraform, Ansible); Опыт работы с SLO/SLI, проведения RCA и написания качественных postmortem отчетов; Развитые навыки наставничества и технического лидерства, умение делиться знаниями и вдохновлять коллег; Отличные коммуникативные навыки и умение работать в команде; Опыт работы с облачными платформами (AWS, GCP, Azure) будет плюсом.Похожие вакансии
Senior Platform Engineer (SRE)
Договорная
Москва. Станции метро: Автозаводская, ЗИЛ, Технопарк
Гоуланг Технологии