Инженер по эксплуатации Linux-инфраструктуры / SRE

Более недели назад

От 350 000 до 450 000 руб.

Город: Москва

Тихонова Екатерина Олеговна

Город: Москва

Тип занятости: Удаленная работа

Требуемый опыт: Опыт от 6 лет

Тихонова Екатерина Олеговна

Тип занятости: Удаленная работа

Требуемый опыт: Опыт от 6 лет

Обязанности:

Мы развиваем большую распределенную инфраструктуру с крупным парком серверов и ищем инженера, который будет отвечать за ее стабильность. Нам нужен человек, который не ограничивается реакцией на алерты, а умеет докапываться до причин: почему сервис деградировал, почему выросла нагрузка, почему отвалился узел, почему мониторинг заметил проблему слишком поздно. Важно, чтобы тебе было интересно не просто «потушить пожар», а сделать так, чтобы он не повторился. Входной фильтр Если ты прочитал вакансию внимательно, начни отклик со слов: Я работал в... — и перечисли компании или проекты, где ты лично отвечал за доступность серверов и участвовал в разборе инцидентов. Чем предстоит заниматься Следить за стабильностью инфраструктуры и быстро реагировать на сбои. Разбирать инциденты: находить первопричины, фиксировать выводы, предлагать изменения. Развивать мониторинг и алертинг на базе Prometheus, Grafana, VictoriaMetrics или похожего стека. Настраивать дашборды так, чтобы было видно реальное состояние сервисов, а не только факт, что сервер отвечает на ping. Искать слабые места в конфигурациях Nginx, Redis, ClickHouse и системных настройках Linux. Автоматизировать рутинные операции через Ansible; Terraform будет плюсом. Настраивать health checks, failover-сценарии и механизмы восстановления сервисов. Участвовать в улучшении процессов эксплуатации: от регламентов до автоматизации повторяющихся задач. Что важно Опыт эксплуатации Linux-инфраструктуры от 5 лет. Опыт работы с production-системами под нагрузкой. Хорошее понимание Linux: сеть, диски, память, процессы, systemd, логи. Уверенная работа с Nginx: настройка, оптимизация, диагностика проблем. Понимание Redis: репликация, отказоустойчивость, базовая диагностика. Опыт с ClickHouse на уровне базового администрирования и понимания типовых проблем. Умение строить полезный мониторинг, писать PromQL-запросы и настраивать понятные алерты. Опыт с Ansible. Terraform будет плюсом. Умение спокойно и быстро разбираться в инцидентах: сеть, I/O, CPU, RAM, лимиты, конфиги, зависимости между сервисами. Нам подойдет человек, который Не боится сложной инфраструктуры. Любит порядок в мониторинге, конфигурациях и документации. Умеет объяснить, что произошло, без лишней воды. После инцидента думает не только «как восстановить», но и «как не допустить повторения». Готов предлагать улучшения и доводить их до внедрения. Что предлагаем Удаленную работу. Гибкое начало рабочего дня. Минимум бюрократии и прямое общение с технической командой. Инфраструктуру, где действительно есть чем заниматься: много серверов, нагрузка, реальные инженерные задачи. Возможность влиять на технические решения и улучшать систему, а не просто закрывать тикеты.

Показать контакты

Контакт:

Имя не указано

При звонке сообщите, что Вы нашли вакансию на Rabix.ru

Откликнуться

Разместить Резюме

Распечатать Пожаловаться ID: 154758552