Обязанности:
LIFE PAY — это технологичная компания, использующая все современные подходы к ведению бизнеса. Мы предлагаем эффективные IT-решения, которые помогают нашим партнерам работать с платежами и автоматизировать бизнес. Наши люди — наш главный драйвер. Здесь ты можешь влиять на процессы и предлагать свои решения: мы открыты для тех, кто хочет менять компанию к лучшему. И готовы вдохновлять тебя новыми интересными задачами. А еще мы про стабильность: за последние годы, включая кризисные периоды, мы не только сохранили команду, но и выросли в 4 раза. Топим за то, чтобы в коллективе было комфортно и экологично. Верим, что в такой среде может вырасти каждый член команды. И поощряем достижения понятными и ощутимыми бонусами, в том числе и развитием новых компетенций, конечно если ты этого хочешь. Работа в LIFE PAY — одно из лучших карьерных решений, что ты можешь принять. Вся инфраструктура — в облаке (Яндекс.Облако в РФ, AWS за рубежом), плюс небольшой ЦОД. Сотни виртуальных машин, Kubernetes, GitLab CI/CD, Grafana + Prometheus — это наша ежедневная реальность.Мы ищем Senior DevOps — человека, который будет отвечать за reliability architecture, эксплуатационную готовность платформы и выстраивание системного подхода к observability, recovery и incident management. Цель роли — сделать reliability управляемой дисциплиной, а не набором реакций на инциденты.Чем будем заниматься: Reliability Architecture Проектирование модели SLI / SLO / error budget для критичных сервисов Определение требований к service readiness, degradation и recoverability Анализ failure domains: service, cluster, region, provider Incident & Recovery Развитие incident process, escalation model и post-mortem discipline Формирование recovery playbooks и readiness drills Устранение системных слабых мест, выявленных через инциденты Observability Strategy Определение observability taxonomy и correlation model в своей области Требования к retention, masking, signal quality и operational truth Интеграция observability в engineering standards совместно с DevOps и Dev Что для этого от тебя необходимо: Linux: подсистемы, модель безопасности, многозадачность — опыт 5+ лет Python: уверенное программирование для автоматизаций — 3–5 лет Shell scripting на уверенном уровне AWS или Яндекс Облако: опыт от 3 лет Глубокое понимание distributed systems и failure modes Advanced observability: metrics, logs, traces, correlation model Capacity planning, performance и degradation analysis Recovery / DR / failover design Понимание cloud / platform failure domains и межсистемных зависимостей Graceful degradation, load shedding, backpressure, retry budgets, idempotency Blameless postmortem с контролем corrective actions Chaos-informed thinking, gamedays и failure injection Nice-to-have: опыт с PostgreSQL на уровне метрик, managed-режима и performance Техническое лидерство — умение формировать стандарты и policy-level ожидания Проведение сложных incident review и post-mortem Уверенная коммуникация с инженерным и менеджерским контуром Проактивность и самостоятельность — готовность действовать без тикетов на каждый шаг Умение считать стоимость инфраструктуры и принимать решения с оглядкой на cost Что предлагаем: Удалённый формат работы Работа в аккредитованной IT-компании Доплата ×2 за внерабочие инциденты по ТК РФ или дополнительные дни к отпуску Открытая корпоративная культура, общение на ты, поддержка инициатив Стек без legacy: Kubernetes, GitLab CI/CD, Grafana + Prometheus, IaC Влияние на архитектуру — реальная возможность выстраивать reliability с нуляПохожие вакансии