Обязанности:
Мы трайб IT4IT, занимаемся внедрением лучших инженерных практик и развитием ИТ-инструментов. В работе применяем практики автоматизации, CI/CD и делимся опытом со всеми командами банка. Помимо этого, участвуем во внешних, внутренних конференциях и митапах. Чем предстоит заниматься: Развивать и поддерживать систему мониторинга и алертинга на базе Gmonit, Grafana, New-Relic; Разрабатывать и внедрять дашборды, метрики и алерты для систем и бизнес процессов; Поддерживать работоспособность платформы Gmonit; Внедрять агенты мониторинга; Автоматизировать процессы сбора метрик и обработки событий; Построить единые подходы к наблюдаемости и взаимодействию с продуктовыми командами; Разрабатывать и внедрять дашборды, метрики и алерты для продуктовых и инфраструктурных систем; Настроить мониторинг интеграций между системами и внешними сервисами; Автоматизировать процессы сбора метрик и обработки событий; Участвовать в анализе инцидентов и постмортемах, внедрять улучшения для предотвращения повторных аварий; Снижать MTTR (mean time to recovery) и повышать надежность бизнес-критичных систем; Что мы ждём: Опыт работы с системами мониторинга (Gmonit, Zabbix, Grafana, Prometheus или аналогами); Знание принципов построения эффективного мониторинга и алертинга (SLA/SLO/Error budget); Понимание архитектуры распределённых систем и интеграций; Навыки анализа инцидентов и поиска первопричин проблем; Опыт автоматизации (bash/python/go, Ansible/Terraform будет плюсом); Навыки анализа инцидентов и поиска первопричин проблем; Опыт взаимодействия с продуктовыми командами и умение объяснять ценность наблюдаемости; Лидерские качества: готовность брать ответственность, формировать команду и развивать специалистов. Будет плюсом: Опыт работы в финансовых или других высоконагруженных/критичных системах; Практика внедрения SRE-практик (postmortem, error budget, chaos testing); Опыт управления командой или наставничества; Знание CI/CD и контейнерных технологий (Docker, Kubernetes).Похожие вакансии