Обязанности:
Привет! Это команда "Эксплуатации спецпроектов". Мы обеспечиваем надёжную работу критических сервисов на объектах компании – видеонаблюдения, сети доставки контента, СКУД с биометрией и других. Наша ключевая цель – управлять десятками (в перспективе сотнями) небольших Kubernetes-кластеров (3–5 нод) и сопутствующей инфраструктурой в условиях «здоровой реальности»: перебоев электропитания, физических поломок оборудования. Помимо управления kuberentes-кластерами мы разворачиваем некоторые коробочные решения (аналоги Jira, Mattermost) непосредственно внутри ОС. В процессе работы тесно взаимодействуем с сетевыми инженерами, ИБ и технической поддержкой на объектах. Уникальность команды – строить отказоустойчивую платформу там, где идеальных условий не бывает, и делать это максимально автоматизировано. В команде несколько опытных инженеров, которые совместно решают задачи эксплуатации. Вы будете много работать с инженерами на объектах, сетевым отделом, службой информационной безопасности, разработчиками и внутренними потребителями наших сервисов. Наш стек Linux, Kubernetes, Docker, Ansible, Terraform, Helm, Qbec, Prometheus, Grafana, Thanos, Git, PostgreSQL, Bash, Python, Go. Вы будете Разворачивать и сопровождать Kubernetes на bare-metal для каждого объекта с учётом локальных особенностей. Писать и поддерживать инфраструктуру как код (IaC), покрывать её тестами и документацией. Настраивать мониторинг и алертинг (Prometheus, Thanos, Grafana) на десятках распределённых кластеров. Взаимодействовать с инженерами на объектах, сетевиками и ИБ для диагностики и устранения инцидентов в нестабильных условиях. Оптимизировать работу сервисов при перебоях питания, проблемах с дисками или сетью. Разрабатывать скрипты автоматизации на Bash/Python/Go для повседневных задач. Примеры задач Автоматизировать развертывание WatchZone на новом объекте с нуля так, чтобы время установки сократилось с 2 дней до 30 минут. Базово уметь диагностировать отсутствие сетевой связанности между серверами (корректная настройка сетевого интерфейса, недоступность шлюза, блокировка трафика фаерволом). Провести расследование отказа etcd в одном из кластеров после внезапного отключения электричества – выработать и внедрить меры предотвращения. Перенести сервис, работающий на виртуальных машинах, в Kubernetes без потери функциональности и сохранением возможности отката. Нам важно Экспертные знания Linux (процессы, сетевой стек, файловые системы, работа с оборудованием). Опыт развертывания Kubernetes на bare-metal с нуля и понимание его внутренних компонентов (CNI, CSI, API, etcd). Опыт автоматизации (Bash/Python/Go) и Infrastucture as Code (Terraform, Ansible, Helm). Готовность работать с сервисами вне Kubernetes – самостоятельно устанавливать, настраивать и сопровождать их. Понимание работы распределённых систем, сетевых протоколов и принципов высокой доступности. Опыт с системами мониторинга (Prometheus, Grafana) и логирования. Умение эффективно взаимодействовать с удалёнными техническими командами (инженеры на объектах, сетевики, ИБ). Будет плюсом Опыт автоматизации развертывания «коробочных» приложений (Jira, Confluence, Mattermost, GitLab и т.п.) через Ansible/Terraform. Умение читать и дорабатывать код на Go – для патчинга opensource-компонентов. Знание PostgreSQL или других распределённых СУБД (особенно репликация и бэкапы в нестабильной среде). Опыт работы в условиях неидеальной инфраструктуры (промышленные объекты, ЦОД с перебоями).Похожие вакансии
Договорная
Москва. Станции метро: Москва-Сити
Центр Новых Финансовых Сервисов