Обязанности:
Привет! На связи Купер.тех! Купер (ex СберМаркет) — это сервис доставки из магазинов и ресторанов. За 10 лет сервис вырос из food-tech стартапа в высокотехнологичную компанию. Купер — это профессиональная команда и надёжная IT-инфраструктура, которая увеличилась в 77 раз с 2019 года. Купер объединяет свыше 1 300+ IT-специалистов. Мы создаем вдохновляющий продукт для миллионов клиентов. Cейчас мы находимся в поиске DevOps-инженера в группу систем мониторинга (Observability). Почему мы: наша команда DevOps - это 50+ инженеров (и мы продолжаем расширяться); нагрузка на наш сервис перевалила за 310 000 rpm; рост нагрузки x2 каждый год; мы собираем более 3Тб логов в день; число подов в 1 кластере k8s перевалило за 10 000; мы используем open source продукты. Чем предстоит заниматься: разрабатывать и поддерживать инфраструктуры мониторинга и логирования, включая сбор, хранение и анализ метрик, журналов и трейсов; автоматизировать процессы мониторинга и управления инфраструктурой, чтобы обеспечить максимальную отказоустойчивость и производительность системы; разрабатывать и поддерживать инструменты для анализа и визуализации данных, чтобы облегчить процесс принятия решений и улучшить опыт пользователей; участвовать в проектировании новых систем и функциональности с учетом требований к мониторингу и логированию; сотрудничать с другими командами в компании для обеспечения интеграции мониторинга и логирования в различные приложения и сервисы; исследовать новые технологий и тенденций в области мониторинга и логирования с целью улучшения производительности и сокращения времени реакции на проблемы в системе. Мы рассчитываем, что ты: эксперт в k8s, как по части control plane, так и по части эксплуатации приложений в k8s знаешь один из скриптовых языков (bash, python, ruby etc.), предпочтительно Golang работал с Terraform (будет плюсом, если писал модули под публичные облака) и в целом с системами управления конфигурациями (Ansible, Puppet, SaltStack &etc) ранее работал с контейнерами и оркестрацией (Docker, Docker-Compose, Kubernetes, Helm); знаком с основными балансировщиками- nginx/haproxy понимаешь принципы и имеешь опыт построения отказоустойчивых сервисов/эксплуатации высоконагруженных систем (web-серверов, реляционных БД, серверов приложений; имеешь навыки построения мониторинга и траблшутинга, как системных, так и прикладных компонентов: какие метрики собирать, куда смотреть при проблемах, какие дашборды для этого нужны (мы используем VictoriaMetrics/Grafana); знаешь все о SLO/SLI/SLA отлично знаком с PromQL знаком с OpenTelemetry знаешь зачем нужны APM строил высоконагруженные кластера метрик, логов, трейсов жить не можешь без Grafana отлично разбираешься в процессах Инцидент-Менеджмента, процесса построения мониторинга в условиях микросервисной архитектуры любишь писать документацию Что у нас интересного: ДМС с первого месяца работы в компании; IT-ипотека и ипотека для сотрудников экосистемы Сбербанка; предоставляем множество корпоративных бонусных программ; работаем удаленно. В Москве есть большой и красивый офис, поэтому если ты из этого города или будешь проездом — welcome; выдаем технику для работы на твой выбор; помогаем интеллектуально и физически развиваться (электронная библиотека, книжный клуб, футбол); уделяем большое внимание обучению сотрудников, поэтому в нашей knowledge base ты найдёшь много интересных курсов, книг и записей конференций, а также у нас есть выделенный бюджет на образование. А ещё: мы сами участвуем в конференциях, как спикеры; проводим внутренние митапы; не боимся экспериментировать с новыми решениями и технологиями