Обязанности:
Команда HUB SRE отвечает за надёжность, доступность и производительность некоторых из самых критичных и нагруженных сервисов компании. Наша инфраструктура — гибридная: сочетание облачных сервисов и собственных bare-metal серверов, каждый со своей операционной моделью и зонами отказа. Мы не просто поддерживаем системы в рабочем состоянии — мы проектируем надёжность как часть системы. Задачи: Руководить командой HUB SRE и развивать культуру, основанную на принципах Определять, внедрять и продвигать SLO/SLI/error budgets для ключевых сервисов компании — делать надёжность измеримой и управляемой. Владеть и развивать процессы incident management:дежурства (on-call), структурированное реагирование на инциденты, blameless post-mortems и контроль выполнения action items. Развивать observability Менторить инженеров в SRE-подходе и практиках, помогать им развиваться и строить команду, сочетающую операционную зрелость и инженерные амбиции. Ожидания от кандидата: Подтверждённый опыт работы Engineering Manager / SRE Lead / Reliability Engineering Lead, управлявший командой инженеров. Глубокое понимание SRE как дисциплины:SLO/SLI, error budgets, классификация toil, capacity planning, incident management — не только инструменты, но и философия и организационные практики. Сильный технический бэкграунд в:backend-системах, Linux, сетях и распределённых системах. Опыт работы с гибридной инфраструктурой: облака + bare-metal, понимание компромиссов по надёжности. Опыт построения observability: мониторинг, алертинг, distributed tracing, информативные дашборды. Опыт построения и оптимизации CI/CD для сложных multi-service систем. Сильные навыки incident management: структурированное реагирование, blameless post-mortems и системные улучшения после инцидентов. Отличные навыки коммуникации и people management, способность влиять на команды, которые не находятся в прямом подчинении. Будет плюсом: Опыт работы с high-load системами (миллионы запросов) с жёсткими требованиями по latency и availability. Опыт эксплуатации bare-metal инфраструктуры:provisioning, сети, работа с аппаратными сбоями. Знакомство с chaos engineering или проактивным тестированием надёжности (game days, fault injection). Опыт построения моделей компенсации за on-call, устойчивых графиков дежурств и систем эскалации. Опыт performance engineering: profiling, load testing, анализ узких мест. Знание Infrastructure-as-Code инструментов (Terraform, Ansible). Мы готовы предложить: Работа с первым по популярности продуктом в своей отрасли Гибрид из офиса в Тбилиси Помощь с релокацией Оформление по ТК Грузии, конкурентную заработную плату Гибкий график, адаптивное рабочее место и пространство для отдыха ДМС, а также 100% компенсацию больничного листа Компенсацию питания и неограниченное количество снеков круглосуточно Компенсацию изучения английского языка, конференции и курсы под спонсорством компании Тимбилдинги и корпоративные мероприятия. Поддержка от HR-партнера, который поможет адаптироваться и решить любые вопросы.Похожие вакансии