Обязанности: Обеспечивать высокую доступность, отказоустойчивость и надежность сервисов компании; Руководить командой SRE и развивать ее; Внедрять единые SRE-практики и разрабатывать рекомендации по повышению производительности и отказоустойчивости систем; Ведение проектов повышения надежности систем; Участие в принятии архитектурных решений; Анализ и разбор происходящих сбоев систем; Развитие observability; Инцидент-менеджмент: анализ инцидентов, планирование работ по их недопущению, реагирование на возникновение критических инцидентов; Требования: Опыт управления SRE/DevOps командами от 2х лет (постановка целей и контроль их исполнения); Опыт внедрения и развития SRE-практик; Опыт работы с микросервсной архитектурой высоконагруженных проектов; Имеете опыт внедрения метрик SLO/SLI/SLA/ и применение их в рабочем процессе; Есть уверенные знания и навыки администрирования ОС семейства Linux; Есть опыт внедрения систем управления конфигурацией; Работали с CI/CD в GitLab; Имеете опыт внедрения observability-инструментов; Общая база в IT: сети, работа с данными, протоколы интернета, RPC и т. д.; Будет плюсом знание одного из скриптовых или интерпретируемым языков программирования. Условия: Оформление в аккредитованную IT-компанию; Гибридный/удаленный график и комфортный офис; Расширенный пакет ДМС со стоматологией, выездом врачей на дом. К ДМС можно подключать детей через 1 год работы; Внутрикорпоративное обучение; Скидки в наших магазинах и льготные условия от партнеров; Корпоративная столовая; Премии по результатам работы; Возможность влиять на процессы, принимать решения и реализовывать свои идеи; Участие в проектах федерального масштаба.