Обязанности:
ПРОЕКТ: Наша команда занимается разработкой и развитием платформы наблюдаемости – решение для комплексного мониторинга процессов, приложений и инфраструктуры в реальном времени. Мы собираем и обрабатываем миллионы метрик и терабайты логов в сутки, анализируем профили нагрузок по десяткам тысяч измерений разного уровня, выявляя аномалии и отклонения в технологических процессах. Предоставляем мониторинг как услугу для команд разработки, эксплуатации и поддержки, помогая реализовать один из самых главных приоритетов – высокий уровень надежности и доступности платежных сервисов НСПК. ТЕХНОЛОГИЧЕСКИЙ СТЕК: Elasticsearch, VictoriaMetrics, Apache Kafka, PostgreSQL, ClickHouse, S3 (в перспективе), T‑Bank Sage, Grafana, GitLab, Ansible, Docker, Kubernetes, Java 17+, JavaScript, Python, Go, Rust ЧЕМ ТЫ БУДЕШЬ ЗАНИМАТЬСЯ: Обеспечивать стабильную и доступную работу платформы и сервисов, участвовать в мониторинге, анализе инцидентов и устранении причин сбоев Поддерживать и развивать наблюдаемость систем (метрики, логи, алерты) для своевременного выявления и предотвращения проблем Разрабатывать и поддерживать автоматизацию процессов развертывания, конфигурации и эксплуатации инфраструктуры и приложений Участвовать во внедрении практик надежности (SLO/SLA, error budget, postmortem) и повышении предсказуемости эксплуатации Улучшать архитектуру и эксплуатационные процессы для повышения надежности, масштабируемости и эффективности систем Предлагать и внедрять технические улучшения и инновации, упрощающие эксплуатацию и снижающие операционные риски ОТ ТЕБЯ ПОТРЕБУЕТСЯ: Опыт работы от 2-х лет на аналогичной должности Уверенный уровень пользования Linux (RHEL/Debian-based): управление пакетами, systemd, мониторинг ресурсов, работа с ФС Observability: Работа с метриками, логами и трейсами (Prometheus/VictoriaMetrics, Grafana, ELK) CI/CD и GitOps: Опыт построения процессов CI/CD с использованием связки Gitlab CI и ArgoCD Контейнеризация и оркестрация: Опыт работы с Docker (сборка образов) и Kubernetes (понимание архитектуры, манифестов, работа с ресурсами кластера) Глубокое знание Ansible: написание ролей и плейбуков Data & Storage: Администрирование PostgreSQL, Kafka, Elasticsearch, VictoriaMetrics и S3-хранилищ (SeaweedFS/MinIO) Разработка: Опыт применения Python или Go (скриптинг, автоматизация). Знание Java или Rust будет плюсом Мы предлагаем: Оформление согласно ТК РФ Достойный уровень заработной платы + премии График работы: 5/2 с 9:15 до 18:00 Социальный пакет: ДМС со стоматологией, телемедицина, полис для выезжающих за рубеж, страхование от несчастных случаев и рисковых заболеваний, доплата по больничным листам до 20 дней в году, частичная компенсация затрат на покупку путевок в летний детский лагерь, материальная помощь в особых случаях Комфортный офис в центре: тренажерный и спортивный залы, лаунж-зона, микромаркеты, кухни с чаем, кофе и снеками на каждом этажеПохожие вакансии
SRE инженер / Эксперт по обеспечению надежности
Договорная
Москва. Станции метро: Новокузнецкая, Третьяковская
МТС Финтех
Руководитель по обеспечению эксплуатационной надежности
От 100 000 до 130 000 руб.
Москва. Станции метро: Новокузнецкая, Третьяковская
ФЦНИВТ СНПО Элерон
Reliability Engineer / Инженер по обеспечению надежности приложений
Договорная
Москва. Станции метро: Новокузнецкая, Третьяковская
Johnson & Johnson