Обязанности:
! У нас нет k8s, docker и облаков - вместо этого оркестрация deb пакетов на bare metal через AnsibleВот тут можно послушать детали - https://www.youtube.com/watch?v=Xkam_SUWUE0Kinescope — это высоконагруженная видеоплатформа объединяющая фунционал видеохостинга, проведения трансляций и коммуникаций для бизнеса. С нами бизнес улучшает коммуникации, повышать вовлеченность аудитории, хранит, защищает и показывает миллионы видео ежедневно.Мы управляем распределенной инфраструктурой в нескольких ЦОД в РФ и глобально, раздаем сотни гигабит трафика, строим новые стыки с операторами связи и многие другое. Миссия: Делать передовые видео технологии доступными бизнесу. Продукты: Профессиональный видеохостинг и видеоплеер, аналитика, прямые трансляции, real-time коммуникации Клиенты: Ведущие медиахолдинги, образовательные учреждения, e-commerce и крупные корпорации. Зачем эта роль В Kinescope инфраструктура уже работает: серверы стоят, Ansible катит, мониторинг собирает метрики. Но процессы вокруг этого — в зачаточном состоянии. Дежурств нет, постмортемы не прижились, алерты игнорируются, об инцидентах узнаём от клиентов. Нужен человек, который это изменит — не руками перенастроит Prometheus, а выстроит систему, в которой команда работает предсказуемо. Что предстоит делать Процессы и SRE-практики: Внедрить incident management — от обнаружения до постмортема (процесс описан, нужен человек, который его запустит и будет держать) Определить SLO/SLI совместно с продуктом и бизнесом, внедрить error budget Построить дежурства (on-call) — или обосновать, почему автоматика лучше Сделать так, чтобы алерты были actionable, а не фоновым шумом, который все игнорируют Наладить capacity planning — сейчас это «кажется, скоро кончится место» Команда: Руководить инфраструктурной командой (сейчас: DevOps-инженер, Linux-инженер, ops-инженер) Распределять задачи, растить людей, закрывать пробелы в компетенциях Быть IC (Incident Commander) при серьёзных инцидентах — координировать, а не чинить самому AI как инструмент: У нас уже используются LLM-агенты для разработки и автоматизации. Мы строим LLM-агента для триажа алертов и сбора контекста при инцидентах. Нужен человек, который видит в этом возможность, а не угрозу Делегировать рутину AI: написание runbook'ов, анализ логов, первичная диагностика, документирование — всё, что можно автоматизировать, должно быть автоматизировано Учить команду работать с AI-инструментами, внедрять их в повседневные процессы Техническое лидерство (не «руками в консоли»): Принимать архитектурные решения по инфраструктуре: что масштабировать, что упрощать, от чего отказываться Развивать IaC — не писать каждую роль самому, а задать стандарты, code review, тестирование Закрывать технический долг системно, а не героически Обязательные требования Опыт построения процессов: Внедрял incident management, on-call, постмортемы — не «читал книгу Google SRE», а реально запускал в команде Определял и внедрял SLO/SLI/error budget Умеет превращать хаос «реагирует кто увидел» в предсказуемый процесс Лидерство: Руководил инфраструктурной/SRE-командой (3+ человек) Умеет делегировать, а не делать всё сам Способен объяснить бизнесу, зачем нужен error budget, на понятном языке Опыт найма и развития инженеров Технический фундамент: Linux, сети, системы хранения — на уровне «понимаю архитектуру и могу оценить решение», не обязательно «настрою Ceph с нуля» IaC (Ansible или аналоги) — понимание принципов, code review, стандарты Мониторинг (Prometheus/Grafana или аналоги) — не настройка экспортеров, а проектирование системы алертинга, которая работает CI/CD — понимание пайплайнов, стратегий деплоя, rollback Отношение к AI: Активно использует LLM в работе (Cursor, Copilot, Claude, ChatGPT — неважно что именно) Видит AI как способ убрать рутину с команды, а не как игрушку Готов внедрять AI-инструменты в процессы команды и учить людей ими пользоваться Желательно Опыт с on-premise / bare-metal инфраструктурой (не только облака) Опыт с видео/стриминг/CDN — понимание специфики Опыт работы с распределённой инфраструктурой (мульти-ЦОД) Знакомство с FinOps — оптимизация затрат на инфраструктуру Что НЕ ищем «Классического DevOps», который настроит Jenkins и напишет Dockerfile Человека, который будет сам сидеть в консоли 8 часов в день Того, кто считает, что «у нас всегда так работало» — это аргумент Того, для кого AI — это хайп, который пройдёт Контекст Стек: ~70 Go-сервисов, Ansible, GitLab CI, Prometheus/Grafana/Loki, PostgreSQL, ClickHouse, Ceph, NATS, собственная CDN Инфраструктура: bare-metal + совсем минимально облака, ЦОД в 4 регионах Команда: 3 инженера (DevOps, Linux, Сетевой) + DBA + storage инженер Что уже есть: работающая инфраструктура, 100+ Ansible-ролей, мониторинг, CI/CD Чего не хватает: процессы, SLO, дежурства, культура постмортемов, системная работа с техдолгом Условия: Удаленная работа в компактной (30+ человек) команде разработчиков Senior+ Возможность работать над известными проектами с высокими нагрузками, на собственной глобальной инфраструктуре Адекватное управление проектом, отсутствие бюрократии, микроменеджмента и трекинга часов Гибкие коммерческие условия и возможность договариваться!!! При отклике в сопроводительном письме расскажите об опыте по вакансии в разрезе нашего проекта. Пожалуйста не игнорируйте это, отклики без минимальной сопроводительной информации не рассматриваютсяПохожие вакансии
Senior / Lead DevOps Engineer (Highload & Infrastructure)
От 300 000 до 400 000 руб.
Москва
VPNM (Тихонов Денис Олегович)