Обязанности: поддержка текущего парка из нескольких десятков серверов bare-metal (CentOS), Nomad-кластеров и нескольких десятков приложений улучшение наблюдаемости, отказоустойчивости и масштабируемости системы улучшение управления инфраструктурой и приложениями доработка мониторинга и алертинга участие в расследовании инцидентов участие в построении архитектуры новых сервисов разработка решений для автоматизации процессов управления Требования: 5-летний опыт в администрировании Linux-серверов опыт работы с нагруженными (несколько тысяч RPS) проектами опыт построения распределенных систем: хранилищ данных, хранилищ файлов, очередей, кластеров баз данных опыт работы с Docker в production опыт администрирования web-серверов и СУБД: Nginx, MySQL, PostgreSQL опыт работы с Ansible и Terraform опыт работы с Prometheus, Alertmanager и Grafana опыт в расследовании и устранении инцидентов знание любого ЯП для задач автоматизации Будет плюсом: опыт настройки и поддержки Nomad, Consul, Vault опыт работы с AWS, в том числе через Terraform опыт настройки и поддержки service mesh (Consul, Linkerd, Istio) и OpenTelemetry Условия: работа в небольшой команде; удалённая работа в команде с горизонтальной структурой без бюрократии; 30 day off в год; прозрачная схема коммуникации и готовность команды помочь