Обязанности: мониторинг и обеспечение бесперебойной эксплуатации SaaS продукта; управление ресурсами облачных сред (T1Cloud, Яндекс.Облако и аналоги); настройка и развитие системы мониторинга продуктивной инфраструктуры; непосредственный мониторинг метрик инфраструктуры и проактивное реагирование; анализ рисков и причин инцидентов, инициативные действия для исключения повторений; участие в поддержании CI/CD процессов, выстроенных DevOps; соблюдение регламентов в области защиты информации; взаимодействие с командой разработки: обработка поступающих запросов, оказание консультаций о параметрах работы вычислительной инфраструктуры, локализация проблем, эскалация дефектов на команду разработчики, участие в развитии архитектуры продукта; ведение документации по конфигурации продуктивной инфраструктуры. Требования: от 3х лет в качестве системного администратора/SRE в массовых нагруженных продуктах, развернутых на собственной инфраструктуре и облачной (T1Cloud, AWS, Яндекс.Облако); знания на уровне администратора *nix, nginx, k8s, Docker, PostgreSQL, S3; опыт построения и эксплуатации систем мониторинга (VictoriaMetrics, Prometheus, ELK, Grafana, Suricata); опыт настройки и использования в продуктивной среде систем управления конфигурациями (Ansible, Terraform, и д.р.); коммуникабельность, способность работать в команде и умение документировать свою работу.