Обязанности:
Задачи: обслуживание, поддержка и развитие продуктовой инсталляции (экосистема Openstack); автоматизация рутинных действий; поддержка и доработка внутренних решений SRE; участие в инцидент-менеджменте (траблшутинг, помощь разработке и L2/L1, работа с постмортемами); on-call дежурства по продуктовой среде; L3-поддержка пользователей; поддержка и развитие внутренних сервисов (DB - MariaDB + Galera + Proxysql /PosrgreSQL + Stolon, VictoriaMetrics, AlertManager, Elastic + пайплайны доставки логов и метрик, Ceph); доставка новых релизов для инфраструктурных компонентов на продуктовую инсталляцию; поддержка и развитие интеграционной среды. Требования: опыт работы системным администратором/SRE-инженером от трёх лет; опыт обслуживания Linux-систем от трёх лет (оптимально на базе CentOS/RedOS); опыт работы с OpenStack в качестве администратора от года; опыт построения мониторинга и алертинга для сложных ИС (Grafana, Zabbix, VictoriaMetrics, AlertManager); прикладные навыки автоматизации с использованием Ansible/Terraform; прикладные навыки автоматизации на Bash/Python/Go; опыт построения технического SLA для сервисов (выбор SLI и выставление оптимальных SLO); навыки обслуживания и администрирования DBMS - MariaDB + Galera/PostgreSQL + Stolon; навыки работы и настройки геораспределённых ИС (BGP, VxLAN, EVPN, OVS). Будет плюсом: опыт обслуживания Ceph; построение и внедрение стандартов мониторинга, алертинга; построение эффективных пайплайнов доставки логов/метрик (у нас ~70M точек в час, ~12K docs в час); опыт работы в продуктовой команде.