SRE-инженер

Более недели назад

З/П не указана

Город: Москва

Cloud.ru

Город: Москва

Тип занятости: Удаленная работа

Требуемый опыт: Опыт от 3 лет

Cloud.ru

Тип занятости: Удаленная работа

Требуемый опыт: Опыт от 3 лет

Обязанности:

На этой позиции тебе предстоит: Проектировать, разрабатывать, внедрять и поддерживать SLO/SLI для всех сервисов; Участвовать в устранении инцидентов - в связке со смежными командами устранять сбои и предотвращать их повторение; Участвовать в заполнении и разборе постмортемов; Расследовать причины инцидентов (RCA); Разрабатывать и выполнять меры, направленные на предотвращение повторных инцидентов; Развивать мониторинг и алертинг - разработка, обогащение, настройка метрик, логов, трейсов, алертов, дашбордов, ранбуков (и их регулярный анализ/рефакторинг); Автоматизировать рутинную работу; Что мы ждем от кандидата: Экспертные знания в эксплуатации Linux, включая диагностику на уровне ядра (процессы, память, сеть); Опыт работы с Kubernetes и понимание его internal'ов для диагностики сложных проблем; Понимание, как работают сети и умение диагностировать проблемы в их работе; Практический опыт IaаC (Terraform/Ansible) и понимание принципов; Практический опыт построения CI/CD (Gitlab CI, Argo CD); Умение писать автоматизацию и скрипты на Python/Go; Опыт работы с системами мониторинга и логирования (Prometheus, Grafana, Loki, Tempo, ELK); Понимание, что такое SLO и SLI и умение применять их на практике; Уверенный опыт в SRE/Platform/DevOps роли. Будет плюсом, если вы: Имеете практический опыт работы SRE; Знаете, как сделать отказоустойчивый масштабируемый сервис; Имеете опыт написания и ревью технической документации; Обладаете системным мышлением и умением анализировать сложные сценарии отказа, выявлять корневые причины, находить способы их устранения.

Показать контакты

Контакт:

Имя не указано

При звонке сообщите, что Вы нашли вакансию на Rabix.ru

Откликнуться

Разместить Резюме

Распечатать Пожаловаться ID: 149695603