Обязанности:
"ВсеИнструменты.ру" – крупнейший интернет-магазин по продаже товаров для дома, дачи, строительства и ремонта. Сегодня за нашими плечами 17 лет развития, роста и результата. Наша команда — это более 10 тысяч сотрудников. Благодаря им, мы входим в ТОП-3 DIY-сетей РФ (по версии Инфолайн) и занимаем 8 место среди интернет-магазинов России (Data Insight). Также мы входим в ТОП-30 рейтинга «Лучших работодателей России» (крупнейшие компании). Наш стек: Golang, PHP, Javascript, немного Python и Jsonnet; Kubernetes для оркестрации контейнеризированных приложений, Ubuntu, CentOS для вм/bare metal; Mysql Percona XtraDB Cluster + proxysql, Postgresql + patroni, mongodb, Elasticsearch, Clickhouse, Redis; Confluent Kafka + Confluent Schema Registry; Ansible, Ansible molecule, Terraform, Docker, Helm, Werf, Gitlab, Gitlab CI; Prometheus, VictoriaMetrics, Grafana, NewRelic, vector.dev, Sentry. Наш продукт: Более 427000 пайплайнов в месяц;До 91 нод в одном кластере k8s;До 2192 подов в одном кластере k8s;Deckhouse, ванильный kubernetes Сейчас мы ищем Site Reliability Engineer в нашу команду Наши задачи: Автоматизация покрытия приложений трейсингом, логами, метриками; Решение инцидентов. Исследование причин и быстрое устранение; Управление пост-инцидентным процессом; Контроль выполнение пост-инцидентного процесса; Участие в проектировании сервисов; Выстраивание и контроль процесса НТ; Оценка отказоустойчивости и надежности сервисов capacity review; Разработка и внедрение SLI/SLO/Error Budget. Что мы ждем от соискателя: Опыт работы k8s, как пользователь Понимание IaC с использованием terraform, helm, Ansible Опыт конфигурации CI/CD pipelines Балансировка нагрузки, ddos protection, CDN Опыт работы с prometheus\victoria metrics\Grafana Опыт работы с vector.dev, kafka, clickhouse; Понимание отказоустойчивой архитектуры; Понимание паттернов высокой доступности; Навык работы и развитие инструментов наблюдаемости; Опыт борьбы с перегрузкой; Поиск корня проблем (root cause analysis). Будет плюсом: Vector.dev, kafka, clickhouse, zookeeper; Victoria metrics, jaeger; Понимание SLI, SLO, SLA. Бюджет ошибок; Опыт проектирования систем (system design); Опыт работы с Gitlab. Условия: Возможность удаленной работы на масштабных задачах с самыми новыми инструментами и решениями; Система грейдов, индивидуальные планы развития, митапы, конференции, обучение в корпоративном университете, MBA; Дружелюбная атмосфера и открытость к новому. Здесь каждый может предложить свою идею и сформировать команду для реализации; Полностью белая заработная плата, также есть корпоративный ДМС и компенсация спорта 70% на годовой абонемент.