Обязанности:
Мы развиваем крупную распределенную инфраструктуру с большим парком серверов. Наша цель - качественный переход к полной автоматизации отказоустойчивости. Нам нужен инженер, который не просто «поддерживает работу», а проектирует системы, способные сохранять живучесть при сбоях на уровне любых узлов или локаций. Входной фильтр: Начни свой отклик со слов «Я работал в …», а затем перечисли компании, где ты лично отвечал за инфраструктуру с большим количеством серверов и реализовывал механизмы failsafe. Мы ищем человека с глубоким бэкграундом в Highload - если у тебя нет опыта работы с распределенными системами под нагрузкой, пожалуйста, не трать свое и наше время. 🎯 Твой главный вызов: Проектирование и внедрение архитектуры, которая обеспечит автоматическую живучесть системы. Твоя задача - реализовать надежные механизмы failsafe и Disaster Recovery, чтобы минимизировать влияние сбоев на уровне отдельных сервисов или целых сегментов сети. 🛠 Твои задачи: Failsafe & Availability: Разработка и внедрение стратегий автоматического обеспечения отказоустойчивости распределенной системы. Highload Optimization: Глубокая настройка и тюнинг Nginx, Redis и ClickHouse для работы под экстремальными нагрузками. Масштабирование: Управление парком из большого количества серверов через IaC (Terraform, Ansible) — обеспечение идентичности и предсказуемости среды. Observability: Настройка мониторинга и алертинга, позволяющая моментально диагностировать проблемы в любой точке инфраструктуры. Системный тюнинг: Оптимизация Linux-стека (Network, I/O) для стабильной работы сервисов. 📋 Требования (Hard Skills): Опыт 5+ лет в эксплуатации высоконагруженных систем. Scale Experience: Реальный опыт управления большим парком серверов и понимание специфики их взаимодействия. Expertise в стеке: Ты досконально знаешь, как готовить Nginx (tuning), Redis (replication/sentinel/cluster) и ClickHouse (cluster/sharding) к работе с большими данными и трафиком. IaC: Профессиональное владение инструментами автоматизации. Вся инфраструктура должна быть описана кодом. Reliability: Практический опыт построения самовосстанавливающихся (self-healing) систем и понимание принципов SRE. 💼 Что мы предлагаем: Работа над технически сложным продуктом без бюрократии и лишних слоев менеджмента. Прямое влияние на архитектурные решения: ты предлагаешь инструменты — ты их внедряешь. Масштабные задачи, требующие нестандартных подходов к инфраструктуре. Полная удаленка и гибкий график.Похожие вакансии
Senior DevOps Engineer / Blockchain & AI Infrastructure Engineer
От 300 000 до 500 000 руб.
Москва
Simplenight