Технический лидер SRE

Более недели назад

З/П не указана

Город: Москва

Cloud.ru

Город: Москва

Тип занятости: Удаленная работа

Требуемый опыт: Опыт от 6 лет

Cloud.ru

Тип занятости: Удаленная работа

Требуемый опыт: Опыт от 6 лет

Обязанности:

Чем предстоит заниматься: Проектировать, разрабатывать, внедрять и поддерживать SLO/SLI для всех сервисов; Участвовать в устранении инцидентов - в связке со смежными командами устранять сбои и предотвращать их повторение; Участвовать в заполнении и разборе постмортемов; Расследовать причины инцидентов (RCA); Разрабатывать и выполнять меры, направленные на предотвращение повторных инцидентов; Развивать мониторинг и алертинг - разработка, обогащение, настройка метрик, логов, трейсов, алертов, дашбордов, ранбуков (и их регулярный анализ/рефакторинг); Автоматизировать рутинную работу; Ревьюить и помогать дорабатывать DRP, участвовать в качестве координатора в DRT, поддерживать DRP в актуальном состоянии; участвовать в разработке и оптимизации процессов, используемых в работе Встраивать в процессы практики: observability by default, alerting as code, runbooks, SLO/SLA/SLI Помогать командам строить отказоустойчивые сервисы: autoscaling, failover, chaos engineering Обеспечивать внутреннюю экспертизу по стабильности, метрикам, инцидентам и error budgets Что мы ждем от кандидата: Экспертиза и практический опыт в SRE-практиках: глубокое понимание SLO/SLI, error budget, toil reduction, automation first... И умение применять это практически для обеспечения надежности сервисов; Умение проводить code review для оценки готовности к выходу в production новых функций и сервисов с точки зрения надёжности, наблюдаемости и эффективности, понимание, как изменения в коде влияют на смежные системы и общую стабильность платформы; Понимание, что такое load balancing, circuit breakers, disaster recovery, MTTR, RTO, и т.п.; Экспертные знания в эксплуатации Linux, включая диагностику на уровне ядра (процессы, память, сеть); Опыт работы с Kubernetes и понимание его internal'ов для диагностики сложных проблем; Понимание, как работают сети и умение диагностировать проблемы в их работе; Практический опыт IaаC (Terraform/Ansible) и понимание принципов; Практический опыт построения CI/CD (Gitlab CI, Argo CD); Умение писать автоматизацию и скрипты на Python/Go; Опыт работы с системами мониторинга и логирования (Prometheus, Grafana, Loki, Tempo, ELK); Практический опыт в SRE роли. Будет плюсом, если вы: Знаете, как сделать отказоустойчивый масштабируемый сервис; Имеете опыт написания и ревью технической документации; Имеете опыт коммуникации с разработчиками и бизнесом (объяснение trade-offs между reliability и feature dev); Обладаете системным мышлением и умением анализировать сложные сценарии отказа, выявлять корневые причины, находить способы их устранения; Имеете практический опыт построения и внедрения quality gates в CI/CD процесс для управления рисками при развертывании: для предотвращения попадания нестабильных изменений в production; Знаете, как определять SLI для сервиса, у которого нет исторических данных о надежности; Знаете, как рассчитать композитные SLO для сервиса, зависящего от 10+ микросервисов; Имеете опыт внедрения observability-as-code и alerting-as-code.

Показать контакты

Контакт:

Имя не указано

При звонке сообщите, что Вы нашли вакансию на Rabix.ru

Откликнуться

Разместить Резюме

Распечатать Пожаловаться ID: 151009187