other

SRE-инженер (Команда системы мониторинга HR платформы)

19 мая 2026

От 300 000 руб.

Город: Москва

СБЕР

Тип занятости: Полная занятость

Требуемый опыт: Опыт от 3 лет

Ищем сотрудника в проект системы мониторинга, которая построена на Grafana + VictoriaMetrics. Задача команды - постоянное улучшение системы, оптимизация ее работы, разработка новых методов и логики мониторинга. Участие в разборах инцидентов бизнес-сервисов с целью улучшения покрытия их мониторингом. Обязанности Развитие систем мониторинга Проектировать и поддерживать отказоустойчивую архитектуру мониторинга на базе VictoriaMetrics и Prometheus (федерация, долгосрочное хранение, правила агрегации). Строить комплексные дашборды в Grafana, настраивать правила алертинга в Grafana Alerting с минимизацией false-positive срабатываний. Развивать и оптимизировать legacy- и новые компоненты на Zabbix (шаблоны, автообнаружение, триггеры с вычисляемыми элементами). Унифицировать сбор метрик: продумывать единый стандарт для экспортеров, форматов метрик и каналов оповещения. Создание AI-инструментов Разрабатывать AI-агентов на Python для интеллектуального анализа метрик: поиск аномалий, прогнозирование трендов, автоматическая корреляция событий из разных источников. Интегрировать агентов с системами реагирования: автоматическая диагностика, самовосстановление сервисов, эскалация с контекстом. Инженерная культура Вести техническую документацию: архитектурные схемы, runbooks, описание AI-моделей и алгоритмов принятия решений. Участвовать в разборе сложных инцидентов, внедрять решения по их предотвращению. Требования Углублённые знания технологий мониторинга (must have) VictoriaMetrics: архитектура кластера (vminsert, vmselect, vmstorage), MetricsQL, настройка ретеншен-политик и downsampling. Prometheus: Federation, remote write/read, PromQL на продвинутом уровне, понимание внутреннего устройства TSDB, работа с service discovery. Grafana + Grafana Alerting: создание динамических дашбордов (variables, transformations), provisioning, настройка алертов с шаблонизацией и маршрутизацией уведомлений. Zabbix: опыт работы с шаблонами, LLD (low-level discovery), сложные триггеры, API Zabbix для автоматизации. Навыки разработки и автоматизации Уверенное владение Python: написание чистого, поддерживаемого кода для обработки данных и создания AI-агентов (опыт с LLM/агентными фреймворками будет плюсом). Базовые знания Java: умение читать код, интегрироваться с существующими сервисами, писать несложные API. Личные качества и подход к работе Аналитический склад ума: способность раскладывать сложные проблемы на составляющие, видеть системные закономерности, принимать решения на основе данных. Стрессоустойчивость: сохранять ясность мышления и конструктивный настрой в условиях инцидентов и жёстких дедлайнов. Управление задачами: умение самостоятельно планировать свою работу, реалистично оценивать сроки и стабильно доводить задачи до результата. Будет преимуществом Опыт внедрения LLM (LangChain, LangGraph, CrewAI) в процессы эксплуатации. Знание Docker, Kubernetes (развёртывание и мониторинг). Опыт работы с очередями сообщений (Kafka) и потоковой обработкой данных. Условия комфортный современный офис рядом с м. Кутузовская гибридный формат ежегодный пересмотр зарплаты и годовая премия корпоративный спортзал и зоны отдыха уникальная система обучения Сбера для профессионального и карьерного развития расширенный ДМС, льготное страхование для семьи и корпоративная пенсионная программа бесплатная подписка СберПрайм+, скидки на продукты компаний-партнеров вознаграждение за рекомендацию друзей в команду Сбера.

Показать контакты

Имя не указано

Пожаловаться ID: 154178293

Похожие вакансии

MLOps-инженер (команда ML-платформы)

Договорная

Москва

Купер

Инженер системы мониторинга

Договорная

Москва

SberTech

SRE-инженер

Договорная

Москва

K2 Тех

SRE-инженер

Договорная

Москва

Rambler&Co

SRE-инженер

Договорная

Москва

Альфа-Банк