Обязанности: реагировать на инциденты и проблемы (переданные с L2) и оповещения мониторинга; проводить диагностику, выявлять причины сбоев и восстанавливать работу сервисов; участвовать в разборе инцидентов и поиске их причин, участвовать в написании postmortem, контролировать выполнение мер по предотвращению повторений инцидентов; создавать и поддерживать в актуальном состоянии документацию и инструкции для инженеров поддержки L2 и L3; вместе с SRE работать над повышением надёжности системы (мониторинг, алертинг, поиск/указание слабых мест и т.п.). Требования: уверенные знания в области Openstack (nova, cinder, glance, ovn); уверенные знания и опыт администрирования Linux; опыт сопровождения критических информационных систем и инфраструктуры (чем сложнее – тем лучше); способность принимать взвешенные решения в критической ситуации и умение планомерно работать над поиском причины неисправности и её устранением; знания и умение работать с Kubernetes (управление, поиск неисправностей); - базовые знания в области сетевых технологий; умение работать с инструментами мониторинга и логирования (Zabbix / Prometheus, / Grafana / ELK ). Дополнительно можете читать или писать на Bash, Python ; имеете опыт работы с Ansible (написание плейбуков, ролей...); имеет опыт работы с docker имеете знания или опыт работы с системами контроля версий (Git) и CI/CD (Gitlab, Jenkins).
Похожие вакансии