Мы ищем DevOps / Platform Engineer, который поможет развивать и стабилизировать инфраструктуру компании, автоматизировать процессы деплоя и повысить надежность и скорость доставки изменений в продакшн. Работа предполагает как поддержку текущих систем, так и участие в развитии инфраструктуры. Кто мы: Агентство Кельник - с 2000 года является одним из ведущих интерактивных агентств в Proptech отрасли, которое предлагает комплексные digital-решения. Мы упрощаем бизнес-процессы девелоперов, внедряем новые решения и постоянно совершенствуемся. Нашими клиентами являются крупные застройщики России, Казахстана и других стран СНГ, такие как: RBI, ЛСР, ФСК, Главстрой, Кортрос и многие другие. Наши комплексные digital решения: индивидуальная разработка сайтов и личных кабинетов; разработка собственного продукта Multi-Kelnik; шоу-румы для отделов продаж с тач-столами и зоной виртуальной реальности; 3д-визуализация жилых кварталов с отображением их инфраструктуры и интерьеров квартир. Обязанности: 1. Инфраструктура и эксплуатация поддержка и развитие серверной и облачной инфраструктуры администрирование Linux-серверов (Debian и производные) работа с виртуальными машинами (Proxmox/qemu) обеспечение стабильности, отказоустойчивости и доступности сервисов 2. CI/CD и деплой настройка и развитие CI/CD процессов (GitLab CI) автоматизация сборки, тестирования и деплоя приложений сопровождение релизов (dev / stage / prod) оптимизация процессов доставки изменений 3. Контейнеризация работа с Docker (сборка, оптимизация, запуск контейнеров) поддержка контейнерной инфраструктуры (будет плюсом) работа с Kubernetes 4. CDN, кеширование и производительность настройка и поддержка CDN (Yandex Cloud CDN, Selectel CDN или аналоги) работа с HTTP кешированием и reverse proxy (nginx) настройка стратегий кеширования и инвалидации обеспечение баланса между скоростью и актуальностью контента 5. Мониторинг и инциденты настройка мониторинга и алертинга (Zabbix / Prometheus / Grafana / ELK) реагирование на инциденты и восстановление работоспособности сервисов анализ причин сбоев и внедрение улучшений 6. Безопасность и доступы управление доступами (SSH, VPN и др.) работа с SSL сертификатами (Let’s Encrypt) базовое обеспечение безопасности инфраструктуры аудит логов и контроль инцидентов безопасности 7. Взаимодействие с командой работа с backend и frontend разработчиками участие в технических обсуждениях инфраструктуры и архитектуры консультации по деплою и эксплуатации сервисов 8. Документация ведение и актуализация технической документации описание инфраструктуры, процессов деплоя и конфигураций Требования: Обязательные: опыт DevOps / SRE от 3 лет уверенное знание Linux (администрирование, диагностика, работа с сервисами) опыт настройки и эксплуатации Proxmox VE с хранилищем Ceph опыт работы с Docker опыт настройки CI/CD (GitLab CI или аналоги) понимание принципов работы веб-сервисов (HTTP, HTTPS, DNS) опыт настройки и эксплуатации Nginx, Apache, MySQL (MariaDB), Redis, Memcached, Supervisord, PHP (fpm/fcgi/mod-apache). опыт работы с облачной инфраструктурой (AWS или аналоги) понимание CDN и кэширования (HTTP cache, reverse proxy) базовое понимание сетей (TCP/IP, firewall, ports, routing) самостоятельность и умение разбираться в существующих системах высокая степень ответственности за стабильность сервисов Будет преимуществом: опыт работы с Kubernetes опыт Infrastructure as Code (Terraform / Ansible ) опыт построения highload систем опыт работы с pfSense опыт внедрения мониторинга и observability (Prometheus, Grafana, ELK) опыт рефакторинга и модернизации legacy инфраструктуры опыт построения CI/CD с нуля опыт работы с GitOps подходами опыт работы с qdrant Условия: работа в аккредитованной IT-компании; оформление согласно ТК РФ; удаленный формат работы - работай там, где тебе удобно и эффективно работать; график с гибким началом дня с 9-11 до 18-20, 5/2; среда для профессионального роста с крупными корпоративными клиентами; стабильная компания с многолетним стажем на рынке девелоперов. ВАЖНО: Для прохождения на следующий этап ответьте в сопроводительном письме на следующий вопрос: Есть кластер из 3 физических серверов, каждый из которых имеет подключение к глобальному интернету по L2, а так же есть выделенная подсеть /24 для данного кластера, также организована локальная сеть между данными узлами на отдельных 10Гбит сетевых интерфейсах.Какие бы варианты отказоустойчивых решений (в том числе конфигурация хранилища) вы бы порекомендовали в данных случаях? Предложите минимум два варианта.
Похожие вакансии