Обязанности:
Привет! Мы - аккредитованная IT-компания MarfaTech, разрабатывающая собственные высокотехнологичные продукты для b2b клиентов глобальных рынков. У нас большая экспертиза в используемых технологиях и мало legacy. Мы любим свой код и поддерживаем его в актуальном состоянии. На проектах используем самые актуальные и современные технологии. Мы находимся в поиске опытного Senior SRE Engineer для развития highload проектов.Нам нужны амбициозные профессионалы, мотивированные и ответственные инженеры, готовые предлагать, ясно объяснять, реализовывать и отвечать за свои решения. Языки разработки приложений: PHP 8+, Go, NodeJSИнфраструктура и эксплуатация: Kubernetes (managed и self-hosted), Docker, Gitlab CI/CD, ArgoCD и Ansible, AWS (terraform/terragrunt), baremetal серверы, Hashicorp VaultБазы данных и брокеры сообщений: MySQL, ClickHouse, Redis, RabbitMQ, KafkaМониторинг и observability: Grafana, VictoriaMetrics, OpenSearch, OpenTelemetry, NewRelic Наши ценности: Мастерство - Мы профессионалы своего дела и всегда увеличиваем свое мастерство! Осознанность - Мы точно знаем, что мы делаем и зачем! Сотрудничество - Мы помогаем друг другу быть лучше в том, что мы делаем! Наши ожидания от кандидата: -VictoriaMetrics: глубокое понимание архитектуры (vmagent, vmselect, vmstorage), опыт работы с кластером, оптимизация cardinality и churn rate;-PromQL: уверенное владение для создания запросов, алертов и дашбордов;-Zabbix: опыт администрирования, настройка шаблонов, триггеров, интеграций;-Grafana: создание и поддержка дашбордов, переменные, annotations, плагины; Логирование: -OpenSearch: администрирование кластера, оптимизация индексов, lifecycle policies;-Graylog: общее представление; -Понимание structured/unstructured логов, парсинг, агрегация; Трейсинг и APM: -OpenTelemetry: collector, instrumentation, экспорт в различные backend’ы;-Понимание distributed tracing концепций; Инфраструктура: -Kubernetes: уверенная работа (deployments, configmaps, secrets, helm charts);-AWS: EC2, VPC, CloudWatch, базовое понимание сервисов;-Bare metal: мониторинг железа, RAID, сеть; -IaC: Terraform или Ansible (для деплоя мониторинга);-GitOps: ArgoCD или Flux (для управления конфигурациями); Алертинг: -VMAlert и Alertmanager: настройка правил, routing, inhibition;-Опыт аудита и оптимизации алертов; SRE практики:-Incident management: понимание процессов, post-mortems;-Capacity planning: работа с трендами, прогнозирование роста; -Аналитическое мышление для troubleshooting;-Способность работать с большими объемами данных;-Умение приоритизировать алерты по критичности;-Коммуникация с командами разработки для настройки метрик;-Проактивность в поиске проблем до их эскалации. Будет плюсом:-Scripting: Python или Go для автоматизации и интеграций;-SLO/SLI/SLA: опыт внедрения и мониторинга;-CI/CD: GitLab CI, Jenkins для автоматизации деплоя мониторинга;-Дополнительные системы: Thanos, Mimir, Loki, Tempo, Jaeger;-Cost optimization: FinOps практики для observability;-Документация: умение писать runbooks, playbooks;-Базы данных: мониторинг MySQL, PostgreSQL, ClickHouse, Redis. Мы предлагаем: Достойный уровень заработной платы; Полностью удаленный формат работы по всему миру. А если тебе захочется познакомиться лично, то двери нашего офиса в Москве всегда открыты :); Трудоустройство по ТК РФ; Сильную техническую команду, которая всегда готова делиться опытом, у нас работают лучшие технические эксперты; Сложные, интересные задачи и использование новых технологий; Гарантируем полное отсутствие бюрократии и технологическую свободу; Возможность карьерного роста и профессионального развития; Открытая и свободная friendly атмосфера - у нас ты сможешь сам задавать тренды, а не следовать им; 50% компенсация оплаты изучения английского языка; Частичная оплата занятий спортом.Похожие вакансии