other

Технический лидер SRE

Более недели назад

З/П не указана

Город: Москва

Cloud.ru

Тип занятости: Удаленная работа

Требуемый опыт: Опыт от 6 лет

Обязанности:

Чем предстоит заниматься: Проектировать, разрабатывать, внедрять и поддерживать SLO/SLI для всех сервисов; Участвовать в устранении инцидентов - в связке со смежными командами устранять сбои и предотвращать их повторение; Участвовать в заполнении и разборе постмортемов; Расследовать причины инцидентов (RCA); Разрабатывать и выполнять меры, направленные на предотвращение повторных инцидентов; Развивать мониторинг и алертинг - разработка, обогащение, настройка метрик, логов, трейсов, алертов, дашбордов, ранбуков (и их регулярный анализ/рефакторинг); Автоматизировать рутинную работу; Ревьюить и помогать дорабатывать DRP, участвовать в качестве координатора в DRT, поддерживать DRP в актуальном состоянии; участвовать в разработке и оптимизации процессов, используемых в работе Встраивать в процессы практики: observability by default, alerting as code, runbooks, SLO/SLA/SLI Помогать командам строить отказоустойчивые сервисы: autoscaling, failover, chaos engineering Обеспечивать внутреннюю экспертизу по стабильности, метрикам, инцидентам и error budgets Что мы ждем от кандидата: Экспертиза и практический опыт в SRE-практиках: глубокое понимание SLO/SLI, error budget, toil reduction, automation first... И умение применять это практически для обеспечения надежности сервисов; Умение проводить code review для оценки готовности к выходу в production новых функций и сервисов с точки зрения надёжности, наблюдаемости и эффективности, понимание, как изменения в коде влияют на смежные системы и общую стабильность платформы; Понимание, что такое load balancing, circuit breakers, disaster recovery, MTTR, RTO, и т.п.; Экспертные знания в эксплуатации Linux, включая диагностику на уровне ядра (процессы, память, сеть); Опыт работы с Kubernetes и понимание его internal'ов для диагностики сложных проблем; Понимание, как работают сети и умение диагностировать проблемы в их работе; Практический опыт IaаC (Terraform/Ansible) и понимание принципов; Практический опыт построения CI/CD (Gitlab CI, Argo CD); Умение писать автоматизацию и скрипты на Python/Go; Опыт работы с системами мониторинга и логирования (Prometheus, Grafana, Loki, Tempo, ELK); Практический опыт в SRE роли. Будет плюсом, если вы: Знаете, как сделать отказоустойчивый масштабируемый сервис; Имеете опыт написания и ревью технической документации; Имеете опыт коммуникации с разработчиками и бизнесом (объяснение trade-offs между reliability и feature dev); Обладаете системным мышлением и умением анализировать сложные сценарии отказа, выявлять корневые причины, находить способы их устранения; Имеете практический опыт построения и внедрения quality gates в CI/CD процесс для управления рисками при развертывании: для предотвращения попадания нестабильных изменений в production; Знаете, как определять SLI для сервиса, у которого нет исторических данных о надежности; Знаете, как рассчитать композитные SLO для сервиса, зависящего от 10+ микросервисов; Имеете опыт внедрения observability-as-code и alerting-as-code.

Показать контакты

Имя не указано

Пожаловаться ID: 151009187

Похожие вакансии

Лидер команды SRE

Договорная

Москва

СБЕР

Лидер команды SRE

Договорная

Москва

СБЕР

Технический лидер

Договорная

Москва

ГКУ Инфогород

Технический лидер

Договорная

Москва

Группа Компаний Аскона

Технический лидер Python

Договорная

Москва

СБЕР

Технический лидер Python

Договорная

Москва

СБЕР