Обязанности:
Мы ожидаем: Опыт работы в области DevOps или администрирования не менее 10 лет, с опытом руководящей должности не менее 3 лет; Хорошие коммуникативные и аналитические навыки, способность эффективно решать технические проблемы и взаимодействовать с коллегами; Глубокое понимание Linux, опыт администрирования RedHat-based дистрибутивов (RHEL/CentOS/etc); Понимание сетевых технологий, протоколов и стандартов безопасности (OSI, link aggregation, TCP/IP, DNS, SSL/TLS); Глубокое понимание кластерных систем, опыт построения высоконагруженных кластеров с высокой доступностью и производительностью, хорошее понимание аппаратного уровня; Хорошие знания инструментов и практик DevOps, включая CI/CD, автоматизацию, контейнеризацию и управление инфраструктурой как код (Git, Ansible, Terraform); Опыт разработки скриптов и автоматизации на языках программирования (Python, Bash, Makefile, etc.); Опыт работы с KVM-based виртуализацией (OpenStack, Proxmox, etc), контейнеризации (Docker, Kubernetes) и облачной платформой Yandex Cloud; Знание системы мониторинга на основе grafana, prometheus и настройка оповещений; Организация сбора и анализа логов на основе loki+promtail; Глубокое понимание компонентов кластера Hadoop; Понимание работы различных СУБД, общие принципы, различия. Подходы нагрузки на БД (OLTP/OLAP), настройка и конфигурирование, администрирование. Понимание SQL, стандарты, специфичные диалекты, оптимизация запросов. Чем предстоит заниматься: Руководство командой DevOps, развитие инженерной культуры, основанной на передовых практиках; Планирование, развитие и администрирование инфраструктуры в аппаратной и программной части, оптимизация стоимости владения; Мониторинг производительности и надежности систем, активное выявление и устранение проблем для обеспечения оптимального времени безотказной работы и доступности; Внедрение лучших практик безопасности и стандартов соответствия для защиты конфиденциальных данных и обеспечения соблюдения регулятивных требований со стороны СБ; Отслеживание тенденций отрасли и новых технологий, оценка их потенциального влияния и рекомендация их принятия при необходимости; Создание и поддержание CI/CD конвейеров для автоматизации сборки, тестирования и развертывания процессов; Организация disaster recovery plan (DRP) для систем хранения; Установкой и поддержкой кластера ClickHouse; Документирование технических решений.